基于自然语言识别的文档分析方法及系统
Abstract:
本发明涉及自然语言处理技术领域,提出了基于自然语言识别的文档分析方法及系统,包括:根据需要进行长命名实体识别的文档获取文档的语句数据序列,建立历史数据库;获取基础词共存剥离权重,获取共现表征强度,进而获取长实体依存系数;获取词语的命名左方向倾斜度和命名右方向倾斜度;根据历史数据库、命名左方向倾斜度和命名右方向倾斜度,建立词语方向分类模型,使用词语方向分类模型获取词语的最优命名方向,建立语句数据序列的无向图,对无向图的节点进行节点选取,划分出语句数据序列的长实体,实现基于自然语言识别的文档分析。本发明解决实体的边界不易识别导致的长命名实体识别不准确的问题。
Public/Granted literature
Patent Agency Ranking
0/0