-
公开(公告)号:CN116627621B
公开(公告)日:2023-10-20
申请号:CN202310912846.1
申请日:2023-07-25
Applicant: 北京大学
IPC: G06F9/48
Abstract: 本申请提供了一种服务器无感知计算中键值张量的传输方法、系统和装置,属于任务调度技术领域。所述方法包括:确定第一任务的调度时间;在调度时间大于预设调度时间阈值的情况下,生成第一缓存交换指令;第一缓存交换指令用于指示第一任务对应的键值张量在分布式执行引擎中的传输方式为卸载;在调度时间小于或等于预设调度时间阈值的情况下,生成第二缓存交换指令;第二缓存交换指令用于指示第一任务对应的键值张量在分布式执行引擎中的传输方式为上传;向分布式执行引擎发送第一缓存交换指令或第二缓存交换指令。本申请实施例在维护已启动但未完成的任务的中间状态的同时,还降低了分布式执行引擎的内存开销。
-
公开(公告)号:CN116501828B
公开(公告)日:2023-09-12
申请号:CN202310763804.6
申请日:2023-06-27
Applicant: 北京大学
Abstract: 本发明提供了一种基于非结构化数据集的服务器无感知向量查询方法和系统,该方法应用于向量查询技术领域,该方法包括:获取批量查询请求,批量查询请求包括多个向量查询请求;查找与批量查询请求对应的多个向量簇,生成查询计划;其中,每个向量簇被划分为多个平衡向量簇;优化查询计划,消除查询计划中的冗余传输,得到优化后查询计划;获取传输时间信息和计算时间信息,以平衡向量簇为粒度,对优化后查询计划进行重排序,得到最优执行顺序;使用动态规划算法,对最优执行顺序进行分组,得到分组计划;按照分组计划,将每个组推入全局分组队列进行传输和计算,得到向量查询结果。
-
公开(公告)号:CN115237948B
公开(公告)日:2025-04-29
申请号:CN202210869916.5
申请日:2022-07-22
Applicant: 北京大学 , 墨奇科技(北京)有限公司
IPC: G06F16/2453 , G06F16/2455 , G06F16/2458 , G06F16/248
Abstract: 本公开提供了一种数据查询方法、装置、系统、设备和介质。该方法包括:获取目标终止条件;基于查询数据和Y个子数据集中的每一个子数据集的相似度,确定Y个子数据集各自的排名,Y为大于1的正整数;将Y个子数据集中的排名最高的前Z个未处理过的子数据集作为当前子数据集并对当前子数据集进行处理,直至当前查询指标中至少部分指标满足目标终止条件,将更新后的中间结果作为查询结果;其中,Z为小于Y的正整数,处理包括:在当前子数据集所包括的样本数据中,确定与查询数据的相似度最高的至少一个样本数据以更新中间结果,基于更新后的中间结果确定当前查询指标。
-
公开(公告)号:CN116501828A
公开(公告)日:2023-07-28
申请号:CN202310763804.6
申请日:2023-06-27
Applicant: 北京大学
Abstract: 本发明提供了一种基于非结构化数据集的服务器无感知向量查询方法和系统,该方法应用于向量查询技术领域,该方法包括:获取批量查询请求,批量查询请求包括多个向量查询请求;查找与批量查询请求对应的多个向量簇,生成查询计划;其中,每个向量簇被划分为多个平衡向量簇;优化查询计划,消除查询计划中的冗余传输,得到优化后查询计划;获取传输时间信息和计算时间信息,以平衡向量簇为粒度,对优化后查询计划进行重排序,得到最优执行顺序;使用动态规划算法,对最优执行顺序进行分组,得到分组计划;按照分组计划,将每个组推入全局分组队列进行传输和计算,得到向量查询结果。
-
公开(公告)号:CN116401062B
公开(公告)日:2023-09-12
申请号:CN202310392348.9
申请日:2023-04-13
Applicant: 北京大学
IPC: G06F9/50
Abstract: 本公开提供了一种服务器无感知资源处理方法、装置和电子设备,涉及计算机技术领域,旨在解决图形处理器的利用率较低的技术问题,实现在服务器无感知的情况下提升图形处理器的利用率。所述方法包括:获取资源保障型任务针对目标图形处理器的第一函数调用,并获取第一函数调用的到达速率;根据第一函数调用的到达速率,从统一显存地址空间中,为第一函数调用分配显存;获取机会型任务针对任一图形处理器的第二函数调用,并获取第二函数调用的到达速率;获取预先确定的目标速率;根据第一函数调用的到达速率和目标速率,确定第二函数调用的离开速率;根据第二函数调用的离开速率,从统一显存地址空间中,为第二函数调用分配显存或主存。
-
公开(公告)号:CN116702907A
公开(公告)日:2023-09-05
申请号:CN202310961495.3
申请日:2023-08-02
Applicant: 北京大学
Abstract: 本申请提供了一种服务器无感知的大语言模型推理系统、方法和设备,该系统应用于人工智能技术领域,该系统包括:调度器和GPU集群;调度器包括:作业分析模块,用于对接收到的目标推理作业请求,进行信息预测,得到预测执行时间;调度模块,用于根据预测执行时间,确定目标推理作业请求所需要进入的目标优先级队列;调度模块,还用于从多个优先级队列中,选择一个或多个推理作业请求发送给GPU集群;GPU集群包括:分布式执行模块,用于接收调度模块发送的推理作业请求,执行推理作业请求所对应的推理作业,得到推理结果;内存管理模块,用于管理分布式执行模块执行推理作业的过程中产生的中间状态数据。
-
公开(公告)号:CN116627621A
公开(公告)日:2023-08-22
申请号:CN202310912846.1
申请日:2023-07-25
Applicant: 北京大学
IPC: G06F9/48
Abstract: 本申请提供了一种服务器无感知计算中键值张量的传输方法、系统和装置,属于任务调度技术领域。所述方法包括:确定第一任务的调度时间;在调度时间大于预设调度时间阈值的情况下,生成第一缓存交换指令;第一缓存交换指令用于指示第一任务对应的键值张量在分布式执行引擎中的传输方式为卸载;在调度时间小于或等于预设调度时间阈值的情况下,生成第二缓存交换指令;第二缓存交换指令用于指示第一任务对应的键值张量在分布式执行引擎中的传输方式为上传;向分布式执行引擎发送第一缓存交换指令或第二缓存交换指令。本申请实施例在维护已启动但未完成的任务的中间状态的同时,还降低了分布式执行引擎的内存开销。
-
公开(公告)号:CN117573374B
公开(公告)日:2024-04-05
申请号:CN202410050810.1
申请日:2024-01-15
Applicant: 北京大学
IPC: G06F9/50
Abstract: 本申请提供一种服务器无感知资源配置的系统及方法,涉及云计算技术领域,该系统包括:编排器、函数运行模块;编排器包括任务分析模块和资源配置自动生成模块;任务分析模块,用于对用户提交的任务的历史运行信息进行分析,确定任务中各个阶段各自对应的运行时间模型和成本模型;资源配置自动生成模块,用于根据运行时间模型、成本模型、用户指定的性能界限和任务,生成任务对应的最优资源配置策略;函数运行模块,用于基于最优资源配置策略,对任务进行执行。旨在使得对服务器无感知计算的资源配置在满足用户要求的延迟或成本界限的同时,达到成本或延迟的最优化。
-
公开(公告)号:CN117573374A
公开(公告)日:2024-02-20
申请号:CN202410050810.1
申请日:2024-01-15
Applicant: 北京大学
IPC: G06F9/50
Abstract: 本申请提供一种服务器无感知资源配置的系统及方法,涉及云计算技术领域,该系统包括:编排器、函数运行模块;编排器包括任务分析模块和资源配置自动生成模块;任务分析模块,用于对用户提交的任务的历史运行信息进行分析,确定任务中各个阶段各自对应的运行时间模型和成本模型;资源配置自动生成模块,用于根据运行时间模型、成本模型、用户指定的性能界限和任务,生成任务对应的最优资源配置策略;函数运行模块,用于基于最优资源配置策略,对任务进行执行。旨在使得对服务器无感知计算的资源配置在满足用户要求的延迟或成本界限的同时,达到成本或延迟的最优化。
-
公开(公告)号:CN117193963A
公开(公告)日:2023-12-08
申请号:CN202310975298.7
申请日:2023-08-03
Applicant: 北京大学
Abstract: 本申请实施例提供了一种基于函数特征的服务器无感知计算调度方法和装置,属于云计算服务技术领域。包括:在接收到用户发送的函数处理请求的情况下,获取针对函数服务器所在的服务器集群的,用于表征运行状态的监控信息并将监控信息同步至调度控制单元。由调度控制单元根据监控信息选取即将进行处理的目标函数请求与对应的目标函数服务器,并由此生成调度指令并发送至目标函数服务器,以供其对目标函数请求进行处理。通过实时分析函数处理需求的特征与函数服务器空闲资源状态,在时间维度上优化用户函数执行效率,在空间维度上考虑函数资源占有量对整体函数请求完成时间的影响,从而实现对平均函数请求完成时间的大幅度优化。
-
-
-
-
-
-
-
-
-