- 专利标题: 基于融合视觉信息的文档目录智能生成方法及系统
-
申请号: CN202310291320.6申请日: 2023-03-23
-
公开(公告)号: CN115995087B公开(公告)日: 2023-06-20
- 发明人: 马富欣
- 申请人: 杭州实在智能科技有限公司
- 申请人地址: 浙江省杭州市余杭区余杭街道文一西路1818-2号6幢6层
- 专利权人: 杭州实在智能科技有限公司
- 当前专利权人: 杭州实在智能科技有限公司
- 当前专利权人地址: 浙江省杭州市余杭区余杭街道文一西路1818-2号6幢6层
- 代理机构: 浙江永鼎律师事务所
- 代理商 王日精
- 主分类号: G06V30/416
- IPC分类号: G06V30/416 ; G06F16/35
摘要:
本发明涉及基于融合视觉信息的文档目录智能生成方法及系统,包括对上传的文件进行文本视觉识别,得到视觉信息;视觉信息包括文本行信息及坐标;将视觉信息输入第一文本分类模型,输出目标换行标签;根据目标换行标签对文本行信息进行段落版式复原,得到文档段落信息;基于文档段落信息进行文档目录识别并判断是否存在目录;若是,则将文档段落信息中的目录删除得到目标文档;若否,则将文档段落信息作为目标文档;基于目标文档进行目录标题识别,得到初定目录标题信息;将初定标题信息输入第二文本分类模型,以验证初定目录标题信息中的各目录标题是否均为标题标签;若是,则将初定目录标题信息进行目录结构化输出。本发明的目录生成准确度高。
公开/授权文献
- CN115995087A 基于融合视觉信息的文档目录智能生成方法及系统 公开/授权日:2023-04-21