一种文档相似度计算查重方法及系统

    公开(公告)号:CN118606462A

    公开(公告)日:2024-09-06

    申请号:CN202410672459.X

    申请日:2024-05-28

    摘要: 本发明提供了一种文档相似度计算查重方法及系统,包括构建动态词库和动态资料库;基于动态词库,对待查重文档和各对比文档进行分词向量化处理,得到待查重文档和各对比文档的词条向量矩阵;并计算两者的相似度并筛选,得到对比目标文档;根据对比目标文档和所述待查重文档的加权词频‑逆文档频率指数矩阵,计算对比目标文档与待查重文档之间的精确相似度;加权词频‑逆文档频率指数矩阵基于词条长度和词条位置进行加权;该方法及系统先从动态资料库中快速筛选,缩小分析文档范围,提高查重效率;随后利用加权词频‑逆文档频率指数矩阵进行精确相似度计算,补充词频‑逆文档频率指数值忽略词条属性等重要因素的不足,从而提高相似度计算的准确率。

    一种提升大语言模型准确性的RAG混合检索方法及装置

    公开(公告)号:CN118277522A

    公开(公告)日:2024-07-02

    申请号:CN202410225234.X

    申请日:2024-02-29

    摘要: 本发明属于RAG检索技术领域,具体涉及一种提升大语言模型准确性的RAG混合检索方法及装置,包括:基于用户的检索文本,从预先建立的向量数据库和搜索引擎中分别进行检索,得到第一检索结果和第二检索结果;所述第一检索结果和所述第二检索结果均包括:文本段落ID和文本段落的相似度评分;利用所述第一检索结果和所述第二检索结果,获取备选结果集;基于所述备选结果集中文本段落的相似度评分,确定最终的检索结果,并将最终的检索结果发送至大语言模型。本发明采用混合检索的方式,充分发挥向量检索和关键字检索的优点,弥补各自的不足,提高了检索结果的准确性和可靠性,从而为大语言模型提供更准确的外部知识,以此提高大语言模型内容生成的质量。