发明公开
- 专利标题: 基于向量检索的文档历史溯源方法及装置、存储介质
-
申请号: CN202410194153.8申请日: 2024-02-21
-
公开(公告)号: CN118152337A公开(公告)日: 2024-06-07
- 发明人: 张思嘉 , 黄登蓉 , 张其来 , 郭冬升
- 申请人: 山东浪潮科学研究院有限公司
- 申请人地址: 山东省济南市高新浪潮路1036号S02号楼
- 专利权人: 山东浪潮科学研究院有限公司
- 当前专利权人: 山东浪潮科学研究院有限公司
- 当前专利权人地址: 山东省济南市高新浪潮路1036号S02号楼
- 代理机构: 北京康盛知识产权代理有限公司
- 代理商 王雅茹
- 主分类号: G06F16/11
- IPC分类号: G06F16/11 ; G06F16/14 ; G06F21/16 ; G06F18/22 ; G06F18/214
摘要:
本申请涉及人工智能技术领域,公开一种基于向量检索的文档历史溯源装置、方法及装置、存储介质,其数据收集模块收集历史文档集合,构建模型微调数据集;模型微调模块根据微调数据集对向量化模型进行微调,使向量化模型能够区分两篇文档是否为同源文档;文档存储模块定期对系统中的文档进行向量化存储,并保留文档的时间信息,以及过往的历史版本信息;检索模块利用向量化模型对本次存储新增的文档进行向量化表示,然后在文档向量库中检索相似度大于阈值的文档,过滤后得到同源文档,并作为附加信息记录到新增文档的历史版本信息中。本公开可以解决新增文档的历史溯源问题,并且可以增强文档的可信性和透明度。