-
公开(公告)号:CN116758570A
公开(公告)日:2023-09-15
申请号:CN202310604721.2
申请日:2023-05-25
Applicant: 中车青岛四方机车车辆股份有限公司
IPC: G06V30/412 , G06V30/413 , G06V30/414 , G06V30/148 , G06V10/82
Abstract: 本发明涉及文档识别技术领域,尤其涉及一种非结构文档识别方法及系统。其方法包括:获取待识别文档的PDF格式文档;分割所述PDF格式文档,形成行数据集;对所述行数据集进行区域划分,得出文本区域和表格区域;采用识别方法,分别对所述文本区域和表格区域进行数据识别,分别得到文本区域中的数据和表格区域中的数据。本发明的目的是解决现有技术对非结构文档中文本和表格的识别准确度低的问题。