-
公开(公告)号:CN107908712A
公开(公告)日:2018-04-13
申请号:CN201711101619.1
申请日:2017-11-10
申请人: 哈尔滨工程大学
IPC分类号: G06F17/30
CPC分类号: G06F16/334 , G06F16/319 , G06F16/3334 , G06F16/3335 , G06F16/338
摘要: 本发明提供的是一种基于术语提取的跨语言信息匹配方法。利用自然语言处理技术对中文文本进行预处理,针对句子进行词性标注;采用术语的构词规则对预处理结果进行词语过滤,通过信息熵确定词语的边界;采用领域语料库中词语的IDF值来衡量术语的领域相关度,将两组词语进行加权处理,最后设定的阈值,根据术语得分情况对候选术语进行取舍;在获取的领域术语的基础上,对中英文术语进行对齐,得到术语在本领域对应的翻译。最后利用中英文术语对齐结果构建检索式,建立中文与英文之间的联系,将检索式在英文文本中进行全文检索,根据匹配结果确定最匹配的英文文本,从而达到利用领域术语对齐结果实现跨语言匹配。