-
公开(公告)号:CN115994204A
公开(公告)日:2023-04-21
申请号:CN202310140329.7
申请日:2023-02-20
IPC分类号: G06F16/33 , G06F40/30 , G06F40/295 , G06F18/22 , G06N3/088 , G06N3/0895
摘要: 本申请提出了一种适用于少样本场景的国防科技文本结构化语义分析方法,包括:获取国防科技文本数据;对国防科技文本数据进行自动模版匹配,并通过人工对匹配到的模版进行标注过滤,获得训练数据;采用对比学习的方式使用训练数据对BERT对进行无监督语义训练,得到对比学习模型;使用训练数据对对比学习模型和命名实体模型进行半监督学习联合训练,得到训练好的命名实体模型;获取待预测的未标注国防科技文本,并将国防科技文本数据输入命名实体识别模型中,输出BIOS标签作为识别结果。采用上述方案的本发明能够在少样本场景下能够充分利用未标注数据提供的信息,提高国防科技文本结构化语义分析的准确率。