一种非结构化文本表格识别方法和系统
摘要:
本发明提供了一种非结构化文本(包括所有格式的办公文档、文本、图片、各种报表和图像等)表格识别方法,涉及文本识别领域,该方法包括:采集数据集,首先把非结构化文本转化为图像类集合,然后对集合进行图像预处理,把图像集合作为数据集导入模型,对图像数据集的信息进行分析,检测出表格区域,把图像转换成序列,进行表格结构序列预测,检测出表格行结构,进行表格行识别,表格行单元格识别后,识别结果经过后处理,融合表格行结构和单元格文本内容,最终通过文本框和单元格内容进行匹配得到Excel形式的表格识别数据。该方法通过特征学习训练了模型,实现了非结构化文本数据信息的智能提取,有利于非结构化文本数据的进一步分析和实际应用,极大地节省了人力成本提高了工作效率,在一定程度上提高了表格检测速度和准确率,使用本发明所述的方法和系统,可以通过转化进行非结构化文本内容的分析和信息的识别提取,使得非结构化文本在各行各业中具有更好的实用价值和应用。
0/0