Invention Publication
- Patent Title: 面向大模型知识问答的文档树自动生成方法及装置
-
Application No.: CN202411002769.7Application Date: 2024-07-25
-
Publication No.: CN118551734APublication Date: 2024-08-27
- Inventor: 程宏斌 , 何子元 , 苟蛟龙 , 马草 , 王栋平 , 李闯
- Applicant: 美林数据技术股份有限公司
- Applicant Address: 陕西省西安市高新区软件新城天谷八路528号国家电子商务示范基地六层
- Assignee: 美林数据技术股份有限公司
- Current Assignee: 美林数据技术股份有限公司
- Current Assignee Address: 陕西省西安市高新区软件新城天谷八路528号国家电子商务示范基地六层
- Agency: 陕西佳禾宏盛知识产权代理事务所
- Agent 张为攀
- Main IPC: G06F40/154
- IPC: G06F40/154 ; G06V30/412 ; G06V30/414 ; G06F16/31

Abstract:
本申请公开了一种面向大模型知识问答的文档树自动生成方法及装置,所述方法包括:获取文档待解析页的页面图像;分析页面图像版面,获得各区域的文档元素的类别与位置信息;获得正文信息、标题信息、页眉信息与页脚信息,并对应存储于各文档元素的信息集合;获得单元格列表;将各文档元素的信息集合存储于文档内容列表,将标题信息存储于标题列表;对标题列表中的标题信息进行层级解析,获得每个标题的层级信息并存储至标题层级列表;对同一层级的所有标题进行排序;建立两个标题的父子节点关系;设置节点属性中正文的文字信息。本申请提供的技术方案避免了解析结果中文档元素的缺失,将标题按照文档树的形式建立联系,有利于文档内容的检索。
Information query