利用二次互信息的中文文本术语抽取方法
摘要:
本发明涉及一种利用二次互信息的中文文本术语抽取方法,属于计算机科学与自然语言处理技术。本发明首先基于核心词前后扩展,结合二次互信息、词频、词长和词性特征,将核心词扩展成多个候选术语,然后根据术语间的嵌套关系、词长、词频特征去除候选集中的冗余术语并对术语进行打分排序。本发明综合考虑了术语的语言规则和统计特征,提高了术语抽取的准确性。
公开/授权文献
0/0