-
公开(公告)号:CN116502093B
公开(公告)日:2023-10-13
申请号:CN202310772340.5
申请日:2023-06-28
Applicant: 江苏瑞中数据股份有限公司 , 南瑞集团有限公司
IPC: G06F18/214 , G06F18/21 , G06V10/774 , G06V10/778 , G06F123/02
Abstract: 本发明公开了一种基于主动学习的目标检测数据挑选方法、装置,所述方法包括:将时序数据划分为多段子片段时序数据;使用目标模型,对每段子片段时序数据进行输出预测,得到相应的子片段预测输出;子片段预测输出包括多个样本预测结果,样本预测结果为样本数据的预测结果;计算样本预测结果的样本离散程度,并从多段子片段时序数据中筛选得到候选子片段时序数据;使用候选子片段时序数据,对目标模型进行多轮训练;计算各轮训练的训练预测结果的训练离散程度,并从候选子片段时序数据中筛选用于目标模型训练的训练数据。采用上述技术方案,可以从海量训练数据中,快速的查询得到对于训练更有帮助的训练数据,能减少标注的代价。
-
公开(公告)号:CN116502093A
公开(公告)日:2023-07-28
申请号:CN202310772340.5
申请日:2023-06-28
Applicant: 江苏瑞中数据股份有限公司 , 南瑞集团有限公司
IPC: G06F18/214 , G06F18/21 , G06V10/774 , G06V10/778 , G06F123/02
Abstract: 本发明公开了一种基于主动学习的目标检测数据挑选方法、装置,所述方法包括:将时序数据划分为多段子片段时序数据;使用目标模型,对每段子片段时序数据进行输出预测,得到相应的子片段预测输出;子片段预测输出包括多个样本预测结果,样本预测结果为样本数据的预测结果;计算样本预测结果的样本离散程度,并从多段子片段时序数据中筛选得到候选子片段时序数据;使用候选子片段时序数据,对目标模型进行多轮训练;计算各轮训练的训练预测结果的训练离散程度,并从候选子片段时序数据中筛选用于目标模型训练的训练数据。采用上述技术方案,可以从海量训练数据中,快速的查询得到对于训练更有帮助的训练数据,能减少标注的代价。
-
公开(公告)号:CN114860899A
公开(公告)日:2022-08-05
申请号:CN202210331379.9
申请日:2022-03-31
Applicant: 江苏瑞中数据股份有限公司 , 南瑞集团有限公司
IPC: G06F16/332 , G06F16/36 , G06F16/33 , G06F40/289 , G06F40/30 , G06F40/295 , G06F40/242 , G06F40/126 , G06N3/04
Abstract: 本发明公开了一种引入先验知识的少样本问答方法,包括以下步骤:S101预制少样本业务领域知识图谱;S102获取用户端查询;S103将所述查询复制两份,分别输入基于查询语义的字特征模块和融合所述业务领域知识的词特征模块进行特征提取,输出提取的字特征向量和词特征向量;S104将所述字特征向量和所述词特征向量拼接,输入经过先验知识增强的相关性计算模型,得到各回答的相关性得分;S105将所述相关性得分最高的回答返回给用户。本发明提供一种引入先验知识的少样本问答方法,使得少样本情况下问答模型准确度提升。
-
公开(公告)号:CN117592368A
公开(公告)日:2024-02-23
申请号:CN202311600366.8
申请日:2023-11-28
Applicant: 江苏瑞中数据股份有限公司 , 南瑞集团有限公司
IPC: G06F30/27 , G06Q50/06 , G06F113/04 , G06F119/02
Abstract: 本发明公开了一种基于双向长短时记忆网络模型的电量预测方法及系统,方法包括采集用户用电量数据;由于用电量数据不足,对采集的数据进行预处理;针对短期内用电量数据波动较为频繁,采用k折交叉验证法划分数据训练集和测试集;根据不同电压等级的用电量受到不同因素影响,调整双向长短记忆网络模型的特征输入;通过双向长短时记忆网络模型对数据进行训练,得到满足不同电压等级的用电量预测结果。通过均值替换法、最大最小归一化和切片分组进行数据处理,解决关键特征不够完整、数据量过小的问题,在双向长短时记忆网络模型的基础上采用k折交叉验证法调整模型的输入进行用电量预测,从而提高用电量预测的准确性。
-
公开(公告)号:CN117633530A
公开(公告)日:2024-03-01
申请号:CN202311579625.3
申请日:2023-11-24
Applicant: 江苏瑞中数据股份有限公司
IPC: G06F18/214 , G06F18/25 , G06N3/04 , G06F40/20
Abstract: 本发明公开了一种基于大语言模型的GPU高性能精调训练方法及系统,该方法包括以下步骤:S1、获取大语言模型、初始训练数据,所述大语言模型包括若干个工作节点、若干个参数矩阵,所述大语言模型为每个所述工作节点分配对应的所述参数矩阵;S2、将所述大语言模型的训练划分为模型推理阶段和梯度通信阶段;S3、在所述模型推理阶段,基于低秩分解策略将所述参数矩阵划分为低维子矩阵,并得到梯度矩阵;S4、在所述梯度通信阶段,基于双重压缩对所述梯度矩阵进行压缩,替换并更新所述参数矩阵;S5、基于替换更新后的参数矩阵在对应的工作节点中进行训练。本发明基于大语言模型的GPU高性能精调训练方法及系统具有计算速度快、占用内存少的特点。
-
公开(公告)号:CN119474493A
公开(公告)日:2025-02-18
申请号:CN202411548842.0
申请日:2024-11-01
Applicant: 南京南瑞瑞中数据股份有限公司 , 南瑞集团有限公司
IPC: G06F16/906 , G06F16/901 , G06F16/903
Abstract: 本发明公开了一种基于多维标签体系的大规模样本存储管理方法与系统。所述方法包括以下步骤:获取大规模样本数据输入,基于样本来源、样本质量、样本特征维度为每个样本数据建立多维标签体系;对样本数据进行自动辅助识别与分类、质量评估,依照多维标签体系为样本生成多维标签,并根据样本的多维标签选择适合的存储层,在优化存储空间后将样本存储到指定的存储层;根据用户输入的检索条件返回检索结果,并根据需求将检索到的样本分发到需要的任务或分析场景中。本发明通过建立多维度的元数据标签,能够快速、高效地完成样本的检索、定位和管理。同时实现了对样本的自动辅助分类和识别,提高数据管理效率。
-
-
-
-
-