一种面向服务器无感知推理负载的GPU共享方法及装置
摘要:
本发明涉及一种面向服务器无感知推理负载的GPU共享方法及装置,该GPU共享方法需要拦截并转发推理任务的GOU API调用至代理进程,由API代理进程管理和分配GPU资源,包括:在CPU与多个GPU通过总线连接的情况下,多个GPU仅通过CPU端的API代理与CPU进行通信,以通过API代理进程管理和分配GPU资源,其中,由CPU拦截来自同一个推理应用的每一个函数触发的GPU API;由CPU将被拦截的GPU API转发到指定的同一个GPU运行时内执行,且将每一个函数触发的GPU API指定到针对同一个推理应用预先分配的stream池,使得同一个推理应用的多个函数能够在推理应用执行过程中共享同一个GPU运行时。本发明解决了传统GPU运行时在服务器无感推理系统中过于笨重的问题,提升了服务器无感推理系统GPU资源利用率。
0/0