基于术语提取的跨语言信息匹配方法

    公开(公告)号:CN107908712A

    公开(公告)日:2018-04-13

    申请号:CN201711101619.1

    申请日:2017-11-10

    IPC分类号: G06F17/30

    摘要: 本发明提供的是一种基于术语提取的跨语言信息匹配方法。利用自然语言处理技术对中文文本进行预处理,针对句子进行词性标注;采用术语的构词规则对预处理结果进行词语过滤,通过信息熵确定词语的边界;采用领域语料库中词语的IDF值来衡量术语的领域相关度,将两组词语进行加权处理,最后设定的阈值,根据术语得分情况对候选术语进行取舍;在获取的领域术语的基础上,对中英文术语进行对齐,得到术语在本领域对应的翻译。最后利用中英文术语对齐结果构建检索式,建立中文与英文之间的联系,将检索式在英文文本中进行全文检索,根据匹配结果确定最匹配的英文文本,从而达到利用领域术语对齐结果实现跨语言匹配。