-
公开(公告)号:CN117634489A
公开(公告)日:2024-03-01
申请号:CN202311609958.6
申请日:2023-11-29
申请人: 中国电子投资控股有限公司
IPC分类号: G06F40/295 , G06F40/216 , G06F18/214 , G06F18/2415 , G06N3/0442 , G06N3/084
摘要: 本发明实施例提供一种样本选择方法、样本选择系统、识别方法和识别系统,涉及实体识别领域,该方法包括:将未标注样本输入初步实体识别模型对所述未标注样本内的实体进行推理识别,输出各未标注样本对应的推理结果;针对每条所述未标注样本对应的推理结果,基于概率分布差异的采样模型确定所述推理结果中的各类型实体的概率分布差异值;将所述概率分布差异值不低于阈值的所述未标注样本作为补充样本。采用基于概率分布差异的采样模型比较未标注样本与标注样本的实体类别的概率分布差异,概率分布差异值大的未标注样本作为补充样本再次训练实体识别模型的样本,最终的实体识别模型能够识别与补充样本中的实体类型相同的实体,提高了召回率。
-
公开(公告)号:CN117633564A
公开(公告)日:2024-03-01
申请号:CN202311610793.4
申请日:2023-11-29
申请人: 中国电子投资控股有限公司
IPC分类号: G06F18/2321 , G06F18/22 , G06F8/41
摘要: 本发明提供一种基于非完全子树核的命令聚类方法、装置、介质和设备,该方法包括:对命令日志进行词法和语法分析,将命令日志解析成抽象语法树的形式;构建所述抽象语法树的非完全子树空间,非完全子树空间包括所有抽象语法树的子树;根据非完全子树空间中的子树利用树核函数计算任意两颗抽象语法树之间的相似度值;根据相似度值采用密度聚类的方法对命令日志进行聚类。本发明实施例提供的一种基于非完全子树核方法的命令聚类技术,将命令解析成抽象语法树,并使用非完全子树核方法对抽象语法树进行相似度计算,使命令蕴含的语法规则能够被聚类模型所考虑在内,从而显著提高命令的聚类效果。
-
公开(公告)号:CN117634489B
公开(公告)日:2024-09-24
申请号:CN202311609958.6
申请日:2023-11-29
申请人: 中国电子投资控股有限公司
IPC分类号: G06F40/295 , G06F40/216 , G06F18/214 , G06F18/2415 , G06N3/0442 , G06N3/084
摘要: 本发明实施例提供一种样本选择方法、样本选择系统、识别方法和识别系统,涉及实体识别领域,该方法包括:将未标注样本输入初步实体识别模型对所述未标注样本内的实体进行推理识别,输出各未标注样本对应的推理结果;针对每条所述未标注样本对应的推理结果,基于概率分布差异的采样模型确定所述推理结果中的各类型实体的概率分布差异值;将所述概率分布差异值不低于阈值的所述未标注样本作为补充样本。采用基于概率分布差异的采样模型比较未标注样本与标注样本的实体类别的概率分布差异,概率分布差异值大的未标注样本作为补充样本再次训练实体识别模型的样本,最终的实体识别模型能够识别与补充样本中的实体类型相同的实体,提高了召回率。
-
公开(公告)号:CN118114718A
公开(公告)日:2024-05-31
申请号:CN202410129335.7
申请日:2024-01-30
申请人: 中国电子投资控股有限公司
IPC分类号: G06N3/0455 , G06N3/084 , G06F40/295 , G06N5/02 , G06F16/36 , G16H10/00
摘要: 本发明提供一种基于大模型的医疗文本信息治理方法和系统,该方法包括:S1、根据具体的医学实体识别任务,基于大语言模型编写提示词;S2、根据医学数据及指定任务规则,采用规则匹配的方式获取训练样本数据集,再把训练样本数据集整理成对话模式;S3、采用大语言模型作为基座,根据量化的低秩自适应方法构建模型微调结构;S4、根据训练样本数据集和模型微调结构,训练更新模型参数;S5、将训练好的微调模型结构与大语言模型融合并部署,获得能够提供信息标准化服务的医疗文本信息治理大模型。该方法可以有效提高医疗信息治理的效率,节省医疗人员大量精力和时间。
-
-
-