一种非结构化文本表格识别方法和系统

发明公开

请登陆查看更多内容

专利标题： 一种非结构化文本表格识别方法和系统
申请号： CN202211188303.1

申请日： 2022-09-28
公开(公告)号： CN115424282A

公开(公告)日： 2022-12-02
发明人: 李敏 , 张丽平 , 周鸣乐 , 韩德隆 , 刘一鸣
申请人： 山东省计算中心(国家超级计算济南中心) , 齐鲁工业大学
申请人地址： 山东省济南市经十路东首科学院路19号;
专利权人： 山东省计算中心(国家超级计算济南中心),齐鲁工业大学
当前专利权人： 山东省计算中心（国家超级计算济南中心）,齐鲁工业大学（山东省科学院）
当前专利权人地址： 250014 山东省济南市经十路东首科学院路19号
主分类号： G06V30/413
IPC分类号： G06V30/413 ; G06V30/18 ; G06V10/82 ; G06N3/08 ; G06N3/04

摘要：

本发明提供了一种非结构化文本（包括所有格式的办公文档、文本、图片、各种报表和图像等）表格识别方法，涉及文本识别领域，该方法包括：采集数据集，首先把非结构化文本转化为图像类集合，然后对集合进行图像预处理，把图像集合作为数据集导入模型，对图像数据集的信息进行分析，检测出表格区域，把图像转换成序列，进行表格结构序列预测，检测出表格行结构，进行表格行识别，表格行单元格识别后，识别结果经过后处理，融合表格行结构和单元格文本内容，最终通过文本框和单元格内容进行匹配得到Excel形式的表格识别数据。该方法通过特征学习训练了模型，实现了非结构化文本数据信息的智能提取，有利于非结构化文本数据的进一步分析和实际应用，极大地节省了人力成本提高了工作效率，在一定程度上提高了表格检测速度和准确率，使用本发明所述的方法和系统，可以通过转化进行非结构化文本内容的分析和信息的识别提取，使得非结构化文本在各行各业中具有更好的实用价值和应用。

信息查询

中国专利公布公告 Global Dossier Espacenet

IPC分类:

G	物理
G06	计算；推算或计数
G06V	图像或视频识别或理解
G06V30/00	字符识别；数字墨迹识别；面向文档的基于图像的模式识别（文档等的扫描、传输或复制 H04N1/00）
G06V30/40	.面向文档的基于图像的模式识别
G06V30/41	..文件内容分析（基于代码标记的印刷字符识别G06V30/224）
G06V30/413	...内容分类，例如文字、照片或表格