发明公开
- 专利标题: 一种面向服务器无感知推理负载的GPU共享方法及装置
-
申请号: CN202410256022.8申请日: 2024-03-06
-
公开(公告)号: CN118113471A公开(公告)日: 2024-05-31
- 发明人: 吴松 , 吴浩 , 黄卓 , 樊浩 , 于跃 , 金海
- 申请人: 华中科技大学
- 申请人地址: 湖北省武汉市洪山区珞喻路1037号
- 专利权人: 华中科技大学
- 当前专利权人: 华中科技大学
- 当前专利权人地址: 湖北省武汉市洪山区珞喻路1037号
- 代理机构: 北京之于行知识产权代理有限公司
- 代理商 陈鹏程
- 主分类号: G06F9/50
- IPC分类号: G06F9/50 ; G06F9/48 ; G06F9/455 ; G06F9/448 ; G06N5/04
摘要:
本发明涉及一种面向服务器无感知推理负载的GPU共享方法及装置,该GPU共享方法需要拦截并转发推理任务的GOU API调用至代理进程,由API代理进程管理和分配GPU资源,包括:在CPU与多个GPU通过总线连接的情况下,多个GPU仅通过CPU端的API代理与CPU进行通信,以通过API代理进程管理和分配GPU资源,其中,由CPU拦截来自同一个推理应用的每一个函数触发的GPU API;由CPU将被拦截的GPU API转发到指定的同一个GPU运行时内执行,且将每一个函数触发的GPU API指定到针对同一个推理应用预先分配的stream池,使得同一个推理应用的多个函数能够在推理应用执行过程中共享同一个GPU运行时。本发明解决了传统GPU运行时在服务器无感推理系统中过于笨重的问题,提升了服务器无感推理系统GPU资源利用率。