一种数据集扩充方法及装置

    公开(公告)号:CN118607668B

    公开(公告)日:2025-04-18

    申请号:CN202410830079.4

    申请日:2024-06-25

    Abstract: 本公开提供了一种数据集扩充方法及装置,属于数据处理技术领域,该方法包括:基于第一语言模型生成第一样本数据;将第一样本数据添加至包含有第二样本数据的数据集中,从数据集中筛选出第三样本数据;第二样本数据为真实数据,第三样本数据为第一样本数据中与真实数据的关联度小于第一阈值的数据;基于第四样本数据训练第一语言模型;第四样本数据为数据集中除第三样本数据之外的数据;返回执行基于第一语言模型生成第一样本数据的步骤,直至满足设定条件,得到扩充后的数据集。本公开提供的一种数据集扩充方法及装置能够淘汰低质量样本,优化生成过程,有效保留更加丰富和高质量的样本。

    一种数据集扩充方法及装置

    公开(公告)号:CN118607668A

    公开(公告)日:2024-09-06

    申请号:CN202410830079.4

    申请日:2024-06-25

    Abstract: 本公开提供了一种数据集扩充方法及装置,属于数据处理技术领域,该方法包括:基于第一语言模型生成第一样本数据;将第一样本数据添加至包含有第二样本数据的数据集中,从数据集中筛选出第三样本数据;第二样本数据为真实数据,第三样本数据为第一样本数据中与真实数据的关联度小于第一阈值的数据;基于第四样本数据训练第一语言模型;第四样本数据为数据集中除第三样本数据之外的数据;返回执行基于第一语言模型生成第一样本数据的步骤,直至满足设定条件,得到扩充后的数据集。本公开提供的一种数据集扩充方法及装置能够淘汰低质量样本,优化生成过程,有效保留更加丰富和高质量的样本。

    用于大模型分发部署的基于RAMdisk分布式缓存的存储加速系统和方法

    公开(公告)号:CN119396332A

    公开(公告)日:2025-02-07

    申请号:CN202411258769.3

    申请日:2024-09-09

    Abstract: 一种用于大模型分发部署的基于RAMdisk分布式缓存的存储加速系统和方法,包括:数据湖存储模块,用于统一存储训练产出的模型文件,并具备对象存储服务和事件通知机制,其中对象存储服务提供数据湖存储的接口,支持高吞吐量的数据存取,事件通知机制用于在数据状态变化时自动触发通知,以便缓存进行相应的数据加载或更新;分布式缓存分级存储结构,与所述数据湖存储模块的事件通知机制相连接,用于根据数据热度进行分级存储,其包括:RAMdisk缓存,提供高速数据存取;Memory缓存,用于存储热度最高的数据;NVME SSD缓存,用于持久化存储。本发明通过基于对象存储的数据湖分布式缓存方案,实现了对模型数据访问速度、扩展性、部署流程、成本等方面的优化。

    文本审查方法、装置、设备及存储介质

    公开(公告)号:CN118378631A

    公开(公告)日:2024-07-23

    申请号:CN202410805963.2

    申请日:2024-06-21

    Abstract: 本申请涉及人工智能技术领域,公开一种文本审查方法、装置、设备及存储介质。该方法包括:获取文本生成网络生成的待审查文本;将待审查文本输入文本审查网络的敏感词过滤网络,对待审查文本包含的敏感词进行替换,得到敏感词过滤文本;将敏感词过滤文本输入文本审查网络的语义过滤网络,对敏感词过滤文本进行语义评价以及进行语义扩展后的语义评价,得到语义评价结果;根据语义评价结果,生成相应的文本审查结果。本申请实施例可以提高对文本内容包含的敏感信息审查的全面性和准确性。

    用于大规模模型训练的流水线并行划分与内存优化方法

    公开(公告)号:CN119336489A

    公开(公告)日:2025-01-21

    申请号:CN202411258643.6

    申请日:2024-09-09

    Abstract: 本发明提供一种用于大规模模型训练的流水线并行划分与内存优化方法,包括如下步骤:S1.识别并划分模型算子;S2.计算算子内存占用并编号;S3.构建目标函数,通过动态规划最小化内存差值;S4.从单算子开始,逐步构建并搜索最优划分策略;S5.分析并优化内存占用,平衡各阶段设备内存。本发明使用动态规划算法实现了模型的自动划分,解决了在流水线并行中各阶段内存占用不均衡的问题。利用模型层间的同构性减少了动态规划算法的搜索空间,从而降低搜索最优解需要的时间。将模型划分的最小单元缩小到算子,提高了模型划分的精细度,使得算法可以搜索到更优的划分策略。

    文本审查方法、装置、设备及存储介质

    公开(公告)号:CN118378631B

    公开(公告)日:2024-10-15

    申请号:CN202410805963.2

    申请日:2024-06-21

    Abstract: 本申请涉及人工智能技术领域,公开一种文本审查方法、装置、设备及存储介质。该方法包括:获取文本生成网络生成的待审查文本;将待审查文本输入文本审查网络的敏感词过滤网络,对待审查文本包含的敏感词进行替换,得到敏感词过滤文本;将敏感词过滤文本输入文本审查网络的语义过滤网络,对敏感词过滤文本进行语义评价以及进行语义扩展后的语义评价,得到语义评价结果;根据语义评价结果,生成相应的文本审查结果。本申请实施例可以提高对文本内容包含的敏感信息审查的全面性和准确性。

    模型评测系统、评测方法及相关设备

    公开(公告)号:CN119960853A

    公开(公告)日:2025-05-09

    申请号:CN202510060482.8

    申请日:2025-01-14

    Abstract: 本申请实施例提出的模型评测系统、评测方法及相关设备,其中模型评测系统包括依次连接的插件层、模块层以及核心层;插件层基于不同的架构设置有对应的评测模型插件;核心层设置有多个执行器,每个执行器对应于一种评测类型;当模块层接收到目标评测任务和目标配置信息时,模块层用于向插件层的多个评测模型插件中获取目标评测任务对应的目标评测模型插件,并将目标评测模型插件发送至核心层的多个执行器中与目标评测任务对应的目标执行器;核心层用于调用目标执行器基于目标评测模型插件和目标配置信息进行任务评测,并输出目标评测任务的目标评测结果,以有效地提高模型评测系统的通用性和兼容性。

    模型评测方法、装置、计算机设备及可读存储介质

    公开(公告)号:CN119250173A

    公开(公告)日:2025-01-03

    申请号:CN202410791180.3

    申请日:2024-06-19

    Abstract: 本申请实施例提供了一种模型评测方法、装置、计算机设备及可读存储介质,属于数据处理技术领域。获取多个评测问题;针对每个评测问题,将评测问题输入至待评测模型得到第一评测答案,以及将评测问题分别输入多个参照模型中,得到多个第二评测答案;将第一评测答案分别与多个第二评测答案组合得到多个评测组合,并将多个评测组合输入至每个预设评估模型中,得到评测问题在每个预设评估模型下的第一评测得分;基于多个预设评估模型对应的多个第一评测得分,确定待评测模型在评测对应的评测问题时的目标得分;基于待评测模型在评测多个评测问题时的多个目标得分,确定待评测模型的评测得分。以此,能够提高对模型进行评测的准确性。

Patent Agency Ranking