-
公开(公告)号:CN109740149A
公开(公告)日:2019-05-10
申请号:CN201811554878.4
申请日:2018-12-19
申请人: 英大传媒投资集团有限公司 , 国家电网有限公司 , 南瑞集团有限公司 , 国网山东省电力公司烟台供电公司
IPC分类号: G06F17/27
摘要: 本发明公开了一种基于远程监督的同义词提取方法,属于自然语言处理技术领域。该方法包括:建立领域中同义词的词汇句法模式模型;构建基于LSTM和CRF的远程监督神经网络学习模型,并使用领域词条进行训练,得到同义词发现的句子序列标注集;根据标注集,将语料库中的语句中的候选实体进行标注及配对,抽取实体后得到同义词。本发明通过利用基于百科知识库词条特性、结合领域同义词的相应词汇-句法模式、通过远程监督学习和机器自主学习,获取领域同义词,该方法以机器处理为主,人工处理为辅,提高同义词获取的效率,在不降低精度的情况下,大幅降低人工成本。通过定期对在线百科的词条学习和对隐藏同义词的分析可以发现新词。
-
公开(公告)号:CN109740149B
公开(公告)日:2019-12-13
申请号:CN201811554878.4
申请日:2018-12-19
申请人: 英大传媒投资集团有限公司 , 国家电网有限公司 , 南瑞集团有限公司 , 国网山东省电力公司烟台供电公司
IPC分类号: G06F17/27
摘要: 本发明公开了一种基于远程监督的同义词提取方法,属于自然语言处理技术领域。该方法包括:建立领域中同义词的词汇句法模式模型;构建基于LSTM和CRF的远程监督神经网络学习模型,并使用领域词条进行训练,得到同义词发现的句子序列标注集;根据标注集,将语料库中的语句中的候选实体进行标注及配对,抽取实体后得到同义词。本发明通过利用基于百科知识库词条特性、结合领域同义词的相应词汇‑句法模式、通过远程监督学习和机器自主学习,获取领域同义词,该方法以机器处理为主,人工处理为辅,提高同义词获取的效率,在不降低精度的情况下,大幅降低人工成本。通过定期对在线百科的词条学习和对隐藏同义词的分析可以发现新词。
-
公开(公告)号:CN108717425A
公开(公告)日:2018-10-30
申请号:CN201810385484.4
申请日:2018-04-26
申请人: 国家电网公司 , 英大传媒投资集团有限公司 , 南瑞集团有限公司 , 国网山东省电力公司烟台供电公司
发明人: 刘前卫 , 盛兴 , 赵焱 , 刘广峰 , 张渝 , 张涛 , 周莉 , 聂庆 , 谢秋学 , 雍志娟 , 贺芳 , 孙金 , 吴培培 , 滕家雨 , 张楠 , 商莹楠 , 王光林 , 刘斌 , 季笑庆 , 张婷婷
IPC分类号: G06F17/30
摘要: 本发明公开了一种基于多数据源的知识图谱人物实体对齐方法,该方法首先从知识图谱中将同名的人物实体规约在一起,然后对两个及以上相同名字的实体相互之间进行比较,计算两者之间相似度,设置相应的阈值区间[a,b],相似度大于b则判断是相同的实体,如果相似度大于a而小于b则加入到人工确认合并候选集,由人工进行确认,如果相似度小于a,则直接判定为不同实体。本发明在本体信息不完备的情形下进行人物实体合并,通过利用百科知识库、基于共同发文网络关系和研究领域相似度的方法进行加权求和,最后综合判断,且加权参数根据机器学习的结果实时更新,机器自主学习,让结果更加精准。
-
-