推理系统的内存管理方法和装置
    1.
    发明公开

    公开(公告)号:CN119248522A

    公开(公告)日:2025-01-03

    申请号:CN202411783366.0

    申请日:2024-12-05

    Abstract: 本申请一个或多个实施例提供一种推理系统的内存管理方法和装置,所述方法应用于推理系统中的推理引擎;所述推理引擎的计算资源包括用于部署所述推理引擎的计算设备上搭载的GPU;所述推理引擎维护了用于调度推理请求集合的调度队列;所述方法包括:根据与所述调度队列中正在执行的推理请求集合相关联的数据处理时长,确定内存管理时间窗口;计算所述内存管理时间窗口内与所述推理请求集合对应的GPU内存需求量,并根据所述GPU内存需求量,为所述推理请求集合分配GPU内存;在所述内存管理时间窗口结束时,重新根据与所述调度队列中正在执行的推理请求集合相关联的数据处理时长,确定与所述内存管理时间窗口对应的后一个内存管理时间窗口。

    推理系统的内存管理方法和装置

    公开(公告)号:CN119248525B

    公开(公告)日:2025-05-06

    申请号:CN202411784836.5

    申请日:2024-12-05

    Inventor: 丁治强 杨统凯

    Abstract: 本申请一个或多个实施例提供一种推理系统的内存管理方法和装置,所述方法应用于推理系统中的推理引擎;所述推理引擎的计算资源包括用于部署所述推理引擎的计算设备上搭载的GPU;所述推理引擎维护了用于调度推理请求集合的调度队列;所述方法包括:根据与所述调度队列中正在执行的推理请求集合相关联的数据处理时长,确定内存管理时间窗口;计算所述内存管理时间窗口内与所述推理请求集合对应的GPU内存需求量,并根据所述GPU内存需求量,为所述推理请求集合分配GPU内存;在所述内存管理时间窗口结束时,重新根据与所述调度队列中正在执行的推理请求集合相关联的数据处理时长,确定与所述内存管理时间窗口对应的后一个内存管理时间窗口。

    推理系统的内存管理方法和装置

    公开(公告)号:CN119248525A

    公开(公告)日:2025-01-03

    申请号:CN202411784836.5

    申请日:2024-12-05

    Inventor: 丁治强 杨统凯

    Abstract: 本申请一个或多个实施例提供一种推理系统的内存管理方法和装置,所述方法应用于推理系统中的推理引擎;所述推理引擎的计算资源包括用于部署所述推理引擎的计算设备上搭载的GPU;所述推理引擎维护了用于调度推理请求集合的调度队列;所述方法包括:根据与所述调度队列中正在执行的推理请求集合相关联的数据处理时长,确定内存管理时间窗口;计算所述内存管理时间窗口内与所述推理请求集合对应的GPU内存需求量,并根据所述GPU内存需求量,为所述推理请求集合分配GPU内存;在所述内存管理时间窗口结束时,重新根据与所述调度队列中正在执行的推理请求集合相关联的数据处理时长,确定与所述内存管理时间窗口对应的后一个内存管理时间窗口。

    推理系统的负载感知调度方法和推理系统

    公开(公告)号:CN119512748A

    公开(公告)日:2025-02-25

    申请号:CN202411588173.X

    申请日:2024-11-07

    Inventor: 丁治强 杨统凯

    Abstract: 本申请一个或多个实施例提供一种推理系统的负载感知调度方法和推理系统,该方法应用于包括全局调度器和推理引擎的推理系统;推理引擎包括Prefill引擎和Decode引擎;Prefill引擎和Decode引擎分别包括至少一个计算实例;计算实例的计算资源包括所在的计算节点上搭载的GPU;该方法包括:全局调度器获取待执行的目标推理请求,以及基于所维护的GPU负载信息,确定GPU负载满足第一预设条件的Prefill引擎中的第一计算实例,并将目标推理请求发送至第一计算实例执行Prefill阶段的推理计算;Prefill引擎中与第一计算实例对应的第一本地调度器基于所维护的GPU负载信息,确定GPU负载满足第二预设条件的Decode引擎中的第二计算实例,并将Prefill阶段的推理计算结果发送至第二计算实例执行Decode阶段的推理计算。

    推理系统的负载感知调度方法和推理系统

    公开(公告)号:CN119149252A

    公开(公告)日:2024-12-17

    申请号:CN202411646359.6

    申请日:2024-11-15

    Abstract: 本申请一个或多个实施例提供一种推理系统的负载感知调度方法和推理系统,所述方法应用于推理系统中的全局调度器;所述推理系统还包括推理引擎;所述推理引擎包括部署在计算集群中的各个计算节点上的至少一个计算实例;所述计算实例的计算资源包括所在的计算节点上搭载的GPU;所述全局调度器维护了动态更新的各个计算实例的GPU负载信息;所述方法包括:获取待执行的目标推理请求;基于所维护的各个计算实例的GPU负载信息,确定GPU负载满足预设条件的目标计算实例;将所述目标推理请求发送至所述目标计算实例,以由所述目标计算实例执行所述目标推理请求。

Patent Agency Ranking