-
公开(公告)号:CN118964514A
公开(公告)日:2024-11-15
申请号:CN202411421476.2
申请日:2024-10-12
申请人: 浙江工商大学 , 衢州光明电力投资集团有限公司赋腾科技分公司
摘要: 本发明公开了一种基于图数据库和向量数据库的数据处理和存储方法及装置。基于图数据库和向量数据库,结合LayoutLMv3模型、Transformer模型与OCR技术,旨在高效地解析、存储和检索非结构化文档。本发明首先将文档转换为图像,使用布局分析模型LayoutLMv3模型识别图像中的文本、图像、表格几类区域,然后使用三类解析器分析包含数据的区域,特别的,由于表格数据结构的复杂性,使用表格分析模型将表格转为文本表示,最后,将所得到的所有数据进行结构化分割,分别保存在图数据库和向量数据库中,以实现对数据检索的高准确性和高效率性,为大数据分析和大语言模型应用提供了强大的支持。