文献图表提取及分类方法、系统、计算机设备及存储介质

    公开(公告)号:CN118135582A

    公开(公告)日:2024-06-04

    申请号:CN202410054507.9

    申请日:2024-01-15

    摘要: 本发明属于图表中数据提取技术领域,公开了一种文献图表提取及分类方法、系统、计算机设备及存储介质,输入包含图表的文献图片,经分类器分类,图表的文字内容信息通过OCR技术进行识别与提取;获得与常规汉语语法习惯与阅读顺序相同的文字内容,文本数据识别,图表数据提取后,以表格形式输出图表中所包含的数据;同时获得每个文本块的位置信息,由于文字类别信息与位置信息存在一定关系,通过计算每个文本块的具体坐标及坐标间的关系确定其对应的文字类别信息,完成图表文字信息的提取工作。本发明对对图表数据提取的思路进行了整理,提出了一种自动提取图表数据的流程,针对折线图和柱状图两种特殊类型,验证了算法的可行性。