发明公开
- 专利标题: 一种非结构化文本表格识别方法和系统
-
申请号: CN202211188303.1申请日: 2022-09-28
-
公开(公告)号: CN115424282A公开(公告)日: 2022-12-02
- 发明人: 李敏 , 张丽平 , 周鸣乐 , 韩德隆 , 刘一鸣
- 申请人: 山东省计算中心(国家超级计算济南中心) , 齐鲁工业大学
- 申请人地址: 山东省济南市经十路东首科学院路19号;
- 专利权人: 山东省计算中心(国家超级计算济南中心),齐鲁工业大学
- 当前专利权人: 山东省计算中心(国家超级计算济南中心),齐鲁工业大学(山东省科学院)
- 当前专利权人地址: 250014 山东省济南市经十路东首科学院路19号
- 主分类号: G06V30/413
- IPC分类号: G06V30/413 ; G06V30/18 ; G06V10/82 ; G06N3/08 ; G06N3/04
摘要:
本发明提供了一种非结构化文本(包括所有格式的办公文档、文本、图片、各种报表和图像等)表格识别方法,涉及文本识别领域,该方法包括:采集数据集,首先把非结构化文本转化为图像类集合,然后对集合进行图像预处理,把图像集合作为数据集导入模型,对图像数据集的信息进行分析,检测出表格区域,把图像转换成序列,进行表格结构序列预测,检测出表格行结构,进行表格行识别,表格行单元格识别后,识别结果经过后处理,融合表格行结构和单元格文本内容,最终通过文本框和单元格内容进行匹配得到Excel形式的表格识别数据。该方法通过特征学习训练了模型,实现了非结构化文本数据信息的智能提取,有利于非结构化文本数据的进一步分析和实际应用,极大地节省了人力成本提高了工作效率,在一定程度上提高了表格检测速度和准确率,使用本发明所述的方法和系统,可以通过转化进行非结构化文本内容的分析和信息的识别提取,使得非结构化文本在各行各业中具有更好的实用价值和应用。