-
公开(公告)号:CN119312846A
公开(公告)日:2025-01-14
申请号:CN202411459812.2
申请日:2024-10-18
Applicant: 科大讯飞股份有限公司
IPC: G06N3/0455 , G06N5/04
Abstract: 本申请公开了一种模型量化方法、装置、相关设备及计算机程序产品,本申请考虑到模型内部不同层级对量化的敏感度可能不同,为了实现更优的量化策略,并非以整个目标模型作为量化粒度,而是以目标模型的每一层作为量化粒度,根据每一层的权重和激活的数值大小,确定每一层的量化目标,进而可以按照每一层的量化目标,分别对目标模型中的每一层进行量化处理。本申请对于目标模型的每一层均确定与之匹配的量化目标,使得每一层能够按照更加匹配的量化目标进行量化处理,相比于传统方案对整个模型采用同一量化目标进行处理,本申请方案的量化策略更加优异,能够更好的平衡量化后模型的参数量及计算精度,提升模型量化的效果。
-
公开(公告)号:CN119166297A
公开(公告)日:2024-12-20
申请号:CN202411177287.5
申请日:2024-08-26
Applicant: 科大讯飞股份有限公司
Abstract: 本申请公开了一种任务调度方法及相关装置、电子设备和存储介质,其中,任务调度方法包括:构建计算线程和通信线程;其中,计算线程用于调度多个图形处理器进行任务推理,通信线程用于在多个图形处理器之间全量同步任务推理的计算结果;划分若干推理任务为第一任务集和第二任务集;其中,各个推理任务均按照目标工作流执行,目标工作流包含依次执行的若干工作节点,各个工作节点的执行均由计算线程调度资源实现;交替调用计算线程、通信线程分别处理第一任务集和第二任务集,直至若干工作节点执行完毕为止。上述方案,能够从整机角度能够尽可能地降低发生计算资源被闲置的可能性,有助于提高推理过程中整机吞吐效率。
-
公开(公告)号:CN118484525B
公开(公告)日:2024-10-29
申请号:CN202410947840.2
申请日:2024-07-16
Applicant: 科大讯飞股份有限公司
IPC: G06F16/332 , G06F9/50
Abstract: 本申请公开了一种问答交互方法及相关装置、电子设备和存储介质,其中,问答交互方法包括:获取用户在当前轮次输入的第一语句;调用GPU计算资源处理第一语句,得到当前轮次中当前注意力特征,将外部存储空间中历史轮次的历史注意力特征,调取至GPU显存空间;调用GPU计算资源处理当前注意力特征和历史注意力特征,得到第二语句;按照生成时间由新到旧的顺序调取GPU显存空间中键特征和值特征,并写回至外部存储空间,以用于当前轮次的下一轮次。上述方案,能够提升计算资源的利用率和吐字效率,并尽可能地降低首响延迟。此外,通过异构缓存,能够大大缓解保存历史注意力特征对于GPU显存空间的需求压力,特别是在长文本的交互场景下。
-
公开(公告)号:CN118484525A
公开(公告)日:2024-08-13
申请号:CN202410947840.2
申请日:2024-07-16
Applicant: 科大讯飞股份有限公司
IPC: G06F16/332 , G06F9/50
Abstract: 本申请公开了一种问答交互方法及相关装置、电子设备和存储介质,其中,问答交互方法包括:获取用户在当前轮次输入的第一语句;调用GPU计算资源处理第一语句,得到当前轮次中当前注意力特征,将外部存储空间中历史轮次的历史注意力特征,调取至GPU显存空间;调用GPU计算资源处理当前注意力特征和历史注意力特征,得到第二语句;按照生成时间由新到旧的顺序调取GPU显存空间中键特征和值特征,并写回至外部存储空间,以用于当前轮次的下一轮次。上述方案,能够提升计算资源的利用率和吐字效率,并尽可能地降低首响延迟。此外,通过异构缓存,能够大大缓解保存历史注意力特征对于GPU显存空间的需求压力,特别是在长文本的交互场景下。
-
-
-