面向大模型知识问答的文档树自动生成方法及装置
Abstract:
本申请公开了一种面向大模型知识问答的文档树自动生成方法及装置,所述方法包括:获取文档待解析页的页面图像;分析页面图像版面,获得各区域的文档元素的类别与位置信息;获得正文信息、标题信息、页眉信息与页脚信息,并对应存储于各文档元素的信息集合;获得单元格列表;将各文档元素的信息集合存储于文档内容列表,将标题信息存储于标题列表;对标题列表中的标题信息进行层级解析,获得每个标题的层级信息并存储至标题层级列表;对同一层级的所有标题进行排序;建立两个标题的父子节点关系;设置节点属性中正文的文字信息。本申请提供的技术方案避免了解析结果中文档元素的缺失,将标题按照文档树的形式建立联系,有利于文档内容的检索。
Patent Agency Ranking
0/0