基于自然语言识别的文档分析方法及系统

Invention Grant

Please log in to see more content

Patent Title: 基于自然语言识别的文档分析方法及系统
Application No.: CN202410449728.6

Application Date: 2024-04-15
Publication No.: CN118246452B

Publication Date: 2024-09-20
Inventor: 刘义辉
Applicant: 北京尚博信科技有限公司
Applicant Address: 北京市海淀区中关村南大街乙12号院1号楼15层1801
Assignee: 北京尚博信科技有限公司
Current Assignee: 北京尚博信科技有限公司
Current Assignee Address: 北京市海淀区中关村南大街乙12号院1号楼15层1801
Agency: 北京朱樱望河知识产权代理事务所
Agent 刘奕彤
Main IPC: G06F40/295
IPC: G06F40/295 ; G06F40/216

Abstract:

本发明涉及自然语言处理技术领域，提出了基于自然语言识别的文档分析方法及系统，包括：根据需要进行长命名实体识别的文档获取文档的语句数据序列，建立历史数据库；获取基础词共存剥离权重，获取共现表征强度，进而获取长实体依存系数；获取词语的命名左方向倾斜度和命名右方向倾斜度；根据历史数据库、命名左方向倾斜度和命名右方向倾斜度，建立词语方向分类模型，使用词语方向分类模型获取词语的最优命名方向，建立语句数据序列的无向图，对无向图的节点进行节点选取，划分出语句数据序列的长实体，实现基于自然语言识别的文档分析。本发明解决实体的边界不易识别导致的长命名实体识别不准确的问题。

Public/Granted literature

CN118246452A 基于自然语言识别的文档分析方法及系统 Public/Granted day:2024-06-25

Information query

Chinese Patent Announcement Global Dossier Espacenet

IPC分类:

G	物理
G06	计算；推算或计数
G06F	电数字数据处理（基于特定计算模型的计算机系统入G06N）
G06F40/00	处理自然语言数据（语音分析或综合，语音识别G10L）
G06F40/20	.自然语言分析（自然语言的语义分析入G06F40/30）
G06F40/279	..文字实体的识别
G06F40/289	...短语分析，例如有限状态技术或分块
G06F40/295	....命名实体识别