Invention Publication
- Patent Title: 基于目录的电子文本文章分割方法及系统
-
Application No.: CN202310332503.8Application Date: 2023-03-30
-
Publication No.: CN116542236APublication Date: 2023-08-04
- Inventor: 陈艺 , 王安宁 , 汪玉 , 王港琛 , 赵龙 , 唐莫默 , 秦琪 , 贾骏童 , 李宾宾 , 丁洁 , 包佳佳 , 杨瑞雪 , 范明豪 , 马亚彬 , 翟玥 , 杨孝忠 , 金义 , 尹睿涵 , 马路遥 , 陈清兵 , 陈庆涛 , 黄杰 , 刘鑫 , 刘耕云 , 吕鹏飞
- Applicant: 国网安徽省电力有限公司电力科学研究院 , 合肥工业大学
- Applicant Address: 安徽省合肥市经济技术开发区紫云路299号;
- Assignee: 国网安徽省电力有限公司电力科学研究院,合肥工业大学
- Current Assignee: 国网安徽省电力有限公司电力科学研究院,合肥工业大学
- Current Assignee Address: 安徽省合肥市经济技术开发区紫云路299号;
- Agency: 北京久诚知识产权代理事务所
- Agent 余罡
- Main IPC: G06F40/205
- IPC: G06F40/205 ; G06F40/258 ; G06F40/279 ; G06F40/30

Abstract:
本发明提供一种基于目录的电子文本文章分割方法及系统,涉及文章分割技术领域。本发明首先基于关键字和/或格式将电子文本分割为目录部分和内容部分;然后对目录部分和内容部分进行相似度匹配;最后基于匹配结果进行电子文本文章分割。本发明结合了电子文本文章头部的目录,利用目录与后续正文之间具有关联关系的特点进行相似度匹配,且以段落为基本单元,能够更好提取出语义段落的边界,有效提高了电子文本文章分割的准确度。
Information query