Invention Publication
- Patent Title: 基于问答机制的文本变体词识别方法、装置及设备
-
Application No.: CN202410746400.0Application Date: 2024-06-11
-
Publication No.: CN118709688APublication Date: 2024-09-27
- Inventor: 段运强 , 井雅琪 , 侯炜 , 吕东 , 段荣昌 , 段东圣 , 佟玲玲 , 曹亚男 , 尚燕敏 , 任博雅 , 李鹏霄 , 尹鹏飞
- Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院信息工程研究所
- Applicant Address: 北京市朝阳区裕民路甲3号;
- Assignee: 国家计算机网络与信息安全管理中心,中国科学院信息工程研究所
- Current Assignee: 国家计算机网络与信息安全管理中心,中国科学院信息工程研究所
- Current Assignee Address: 北京市朝阳区裕民路甲3号;
- Agency: 北京君尚知识产权代理有限公司
- Agent 余长江
- Main IPC: G06F40/295
- IPC: G06F40/295 ; G06F40/242 ; G06N5/04 ; G06N3/0455 ; G06N3/0499 ; G06N3/082

Abstract:
本发明公开一种基于问答机制的文本变体词识别方法、装置及设备,属于文本信息识别领域。所述方法包括:构建变体词库,并通过汉字的字形和拼音的分别编码对所述变体词库进行数据增强;在数据增强后的变体词库上训练一变体词推理模型,所述变体词推理模型的网络结构包括:一语言表征模型和两个独立的全连接层;将问答模板与文本内容相连接后输入所述变体词推理模型,得到文本内容中变体词的起始位置概率和结束位置概率;基于变体词的起始位置概率和结束位置概率确定变体词的确切边界,得到文本内容中变体词的识别结果。本发明不仅能够提高变体词识别的准确性,还能够有效地降低模型的维护成本,增强其在实际应用中的适应性和鲁棒性。
Information query