服务器无感知计算中键值张量的传输方法、系统和装置

    公开(公告)号:CN116627621B

    公开(公告)日:2023-10-20

    申请号:CN202310912846.1

    申请日:2023-07-25

    Applicant: 北京大学

    Abstract: 本申请提供了一种服务器无感知计算中键值张量的传输方法、系统和装置,属于任务调度技术领域。所述方法包括:确定第一任务的调度时间;在调度时间大于预设调度时间阈值的情况下,生成第一缓存交换指令;第一缓存交换指令用于指示第一任务对应的键值张量在分布式执行引擎中的传输方式为卸载;在调度时间小于或等于预设调度时间阈值的情况下,生成第二缓存交换指令;第二缓存交换指令用于指示第一任务对应的键值张量在分布式执行引擎中的传输方式为上传;向分布式执行引擎发送第一缓存交换指令或第二缓存交换指令。本申请实施例在维护已启动但未完成的任务的中间状态的同时,还降低了分布式执行引擎的内存开销。

    面向深度学习应用的资源解耦合系统、执行方法和设备

    公开(公告)号:CN116991590B

    公开(公告)日:2024-01-12

    申请号:CN202311235145.5

    申请日:2023-09-25

    Applicant: 北京大学

    Abstract: 本申请提供了一种面向深度学习应用的资源解耦合系统、执行方法和设备,涉及深度学习应用技术领域,所述系统包括:计算池,计算池包括多个GPU服务器,GPU服务器中设有用于缓存应用程序状态的内存和多个GPU工作器;内存池,内存池包括多个内存服务器,内存服务器中设有用于存储应用程序状态的第二内存;负载均衡器,用于根据多个GPU服务器的缓存状态,将深度学习应用任务分派给目标GPU服务器中的目标GPU工作器;所述目标GPU工作器利用目标应用程序状态,执行所述深度学习应用任务,得到任务执行结果。

    一种服务器无感知的大语言模型推理系统、方法和设备

    公开(公告)号:CN116702907B

    公开(公告)日:2023-11-14

    申请号:CN202310961495.3

    申请日:2023-08-02

    Applicant: 北京大学

    Abstract: 本申请提供了一种服务器无感知的大语言模型推理系统、方法和设备,该系统应用于人工智能技术领域,该系统包括:调度器和GPU集群;调度器包括:作业分析模块,用于对接收到的目标推理作业请求,进行信息预测,得到预测执行时间;调度模块,用于根据预测执行时间,确定目标推理作业请求所需要进入的目标优先级队列;调度模块,还用于从多个优先级队列中,选择一个或多个推理作业请求发送给GPU集群;GPU集群包括:分布式执行模块,用于接收调度模块发送的推理作业请求,执行推理作业请求所对应的推理作业,得到推理结果;内存管理模块,用于管理分布式执行模块执行推理作业的过程中产生的中间状态数据。

    面向深度学习应用的资源解耦合系统、执行方法和设备

    公开(公告)号:CN116991590A

    公开(公告)日:2023-11-03

    申请号:CN202311235145.5

    申请日:2023-09-25

    Applicant: 北京大学

    Abstract: 本申请提供了一种面向深度学习应用的资源解耦合系统、执行方法和设备,涉及深度学习应用技术领域,所述系统包括:计算池,计算池包括多个GPU服务器,GPU服务器中设有用于缓存应用程序状态的内存和多个GPU工作器;内存池,内存池包括多个内存服务器,内存服务器中设有用于存储应用程序状态的第二内存;负载均衡器,用于根据多个GPU服务器的缓存状态,将深度学习应用任务分派给目标GPU服务器中的目标GPU工作器;所述目标GPU工作器利用目标应用程序状态,执行所述深度学习应用任务,得到任务执行结果。

    一种服务器无感知的大语言模型推理系统、方法和设备

    公开(公告)号:CN116702907A

    公开(公告)日:2023-09-05

    申请号:CN202310961495.3

    申请日:2023-08-02

    Applicant: 北京大学

    Abstract: 本申请提供了一种服务器无感知的大语言模型推理系统、方法和设备,该系统应用于人工智能技术领域,该系统包括:调度器和GPU集群;调度器包括:作业分析模块,用于对接收到的目标推理作业请求,进行信息预测,得到预测执行时间;调度模块,用于根据预测执行时间,确定目标推理作业请求所需要进入的目标优先级队列;调度模块,还用于从多个优先级队列中,选择一个或多个推理作业请求发送给GPU集群;GPU集群包括:分布式执行模块,用于接收调度模块发送的推理作业请求,执行推理作业请求所对应的推理作业,得到推理结果;内存管理模块,用于管理分布式执行模块执行推理作业的过程中产生的中间状态数据。

    服务器无感知计算中键值张量的传输方法、系统和装置

    公开(公告)号:CN116627621A

    公开(公告)日:2023-08-22

    申请号:CN202310912846.1

    申请日:2023-07-25

    Applicant: 北京大学

    Abstract: 本申请提供了一种服务器无感知计算中键值张量的传输方法、系统和装置,属于任务调度技术领域。所述方法包括:确定第一任务的调度时间;在调度时间大于预设调度时间阈值的情况下,生成第一缓存交换指令;第一缓存交换指令用于指示第一任务对应的键值张量在分布式执行引擎中的传输方式为卸载;在调度时间小于或等于预设调度时间阈值的情况下,生成第二缓存交换指令;第二缓存交换指令用于指示第一任务对应的键值张量在分布式执行引擎中的传输方式为上传;向分布式执行引擎发送第一缓存交换指令或第二缓存交换指令。本申请实施例在维护已启动但未完成的任务的中间状态的同时,还降低了分布式执行引擎的内存开销。

Patent Agency Ranking