Invention Publication
- Patent Title: 一种基于关键词拆分技术的文档关键信息提取方法和系统
-
Application No.: CN202111052073.1Application Date: 2021-09-08
-
Publication No.: CN113850056APublication Date: 2021-12-28
- Inventor: 佘俊 , 赵增涛 , 余少锋 , 廖崇阳 , 罗勇
- Applicant: 南方电网调峰调频发电有限公司信息通信分公司
- Applicant Address: 广东省广州市番禺区东环街番禺大道北555号番禺节能科技园内街天安总部中心1号楼601房
- Assignee: 南方电网调峰调频发电有限公司信息通信分公司
- Current Assignee: 南方电网调峰调频发电有限公司信息通信分公司
- Current Assignee Address: 广东省广州市番禺区东环街番禺大道北555号番禺节能科技园内街天安总部中心1号楼601房
- Agency: 成都鱼爪智云知识产权代理有限公司
- Agent 梁悦敏
- Main IPC: G06F40/154
- IPC: G06F40/154 ; G06F40/258 ; G06F40/221 ; G06F40/169

Abstract:
本发明提出了一种基于关键词拆分技术的文档关键信息提取方法和系统,涉及文档关键信息提取领域。该方法包括:将获取的目标文档转换成XML格式文档;基于关键词拆分检测技术对XML格式文档进行关键信息提取。通过获取目标文档并将目标文档转换成XML格式文档;XML为可扩展标记语言,是一种用于标记电子文件使其具有结构性的标记语言。因此将目标文档转换成XML格式文档,便于后续提取信息。基于关键词拆分检测技术对XML格式文档进行关键信息提取。该步骤中,可以从连续的自然语言文本中,抽取出结构化的关键字段信息。解决文档信息量大且过于繁杂、无法让用户快速获取需要的信息的问题。
Information query