基于融合视觉信息的文档目录智能生成方法及系统
摘要:
本发明涉及基于融合视觉信息的文档目录智能生成方法及系统,包括对上传的文件进行文本视觉识别,得到视觉信息;视觉信息包括文本行信息及坐标;将视觉信息输入第一文本分类模型,输出目标换行标签;根据目标换行标签对文本行信息进行段落版式复原,得到文档段落信息;基于文档段落信息进行文档目录识别并判断是否存在目录;若是,则将文档段落信息中的目录删除得到目标文档;若否,则将文档段落信息作为目标文档;基于目标文档进行目录标题识别,得到初定目录标题信息;将初定标题信息输入第二文本分类模型,以验证初定目录标题信息中的各目录标题是否均为标题标签;若是,则将初定目录标题信息进行目录结构化输出。本发明的目录生成准确度高。
0/0