一种基于图文多模态融合的文档片段语义相似度判定算法
摘要:
本发明涉及相似度判定领域,具体为一种基于图文多模态融合的文档片段语义相似度判定算法,其包括以下步骤:S1、对库中的文档和图片进行多模态融合;S2、输入待判断的文档片段;S3、对文档片段进行自动分类标记,同时进行文档的向量化表征;S4、对文档的分类标记进行图片检索,得到相似度a,对向量化表征进行文档检索,得到相似度b;S5、根据结合规则对相似度a和相似度b进行整合,得到最终的文档片段语义相似度判定数值。本发明中,结合对待检测文档片段的分类标记和向量化表征,分别进行图片检索和文档检索,基于图文多模态融合,有效扩大了文档片段语义相似度判定的检索范围,提高了相似度判定的准确性。
0/0