一种服务器无感知的大语言模型推理系统、方法和设备

    公开(公告)号:CN116702907B

    公开(公告)日:2023-11-14

    申请号:CN202310961495.3

    申请日:2023-08-02

    Applicant: 北京大学

    Abstract: 本申请提供了一种服务器无感知的大语言模型推理系统、方法和设备,该系统应用于人工智能技术领域,该系统包括:调度器和GPU集群;调度器包括:作业分析模块,用于对接收到的目标推理作业请求,进行信息预测,得到预测执行时间;调度模块,用于根据预测执行时间,确定目标推理作业请求所需要进入的目标优先级队列;调度模块,还用于从多个优先级队列中,选择一个或多个推理作业请求发送给GPU集群;GPU集群包括:分布式执行模块,用于接收调度模块发送的推理作业请求,执行推理作业请求所对应的推理作业,得到推理结果;内存管理模块,用于管理分布式执行模块执行推理作业的过程中产生的中间状态数据。

    一种服务器无感知资源处理方法、装置和电子设备

    公开(公告)号:CN116401062A

    公开(公告)日:2023-07-07

    申请号:CN202310392348.9

    申请日:2023-04-13

    Applicant: 北京大学

    Abstract: 本公开提供了一种服务器无感知资源处理方法、装置和电子设备,涉及计算机技术领域,旨在解决图形处理器的利用率较低的技术问题,实现在服务器无感知的情况下提升图形处理器的利用率。所述方法包括:获取资源保障型任务针对目标图形处理器的第一函数调用,并获取第一函数调用的到达速率;根据第一函数调用的到达速率,从统一显存地址空间中,为第一函数调用分配显存;获取机会型任务针对任一图形处理器的第二函数调用,并获取第二函数调用的到达速率;获取预先确定的目标速率;根据第一函数调用的到达速率和目标速率,确定第二函数调用的离开速率;根据第二函数调用的离开速率,从统一显存地址空间中,为第二函数调用分配显存或主存。

    数据查询方法、装置、系统、设备和介质

    公开(公告)号:CN115237948A

    公开(公告)日:2022-10-25

    申请号:CN202210869916.5

    申请日:2022-07-22

    Abstract: 本公开提供了一种数据查询方法、装置、系统、设备和介质。该方法包括:获取目标终止条件;基于查询数据和Y个子数据集中的每一个子数据集的相似度,确定Y个子数据集各自的排名,Y为大于1的正整数;将Y个子数据集中的排名最高的前Z个未处理过的子数据集作为当前子数据集并对当前子数据集进行处理,直至当前查询指标中至少部分指标满足目标终止条件,将更新后的中间结果作为查询结果;其中,Z为小于Y的正整数,处理包括:在当前子数据集所包括的样本数据中,确定与查询数据的相似度最高的至少一个样本数据以更新中间结果,基于更新后的中间结果确定当前查询指标。

Patent Agency Ranking