基于向量检索的文档历史溯源方法及装置、存储介质
摘要:
本申请涉及人工智能技术领域,公开一种基于向量检索的文档历史溯源装置、方法及装置、存储介质,其数据收集模块收集历史文档集合,构建模型微调数据集;模型微调模块根据微调数据集对向量化模型进行微调,使向量化模型能够区分两篇文档是否为同源文档;文档存储模块定期对系统中的文档进行向量化存储,并保留文档的时间信息,以及过往的历史版本信息;检索模块利用向量化模型对本次存储新增的文档进行向量化表示,然后在文档向量库中检索相似度大于阈值的文档,过滤后得到同源文档,并作为附加信息记录到新增文档的历史版本信息中。本公开可以解决新增文档的历史溯源问题,并且可以增强文档的可信性和透明度。
0/0