发明公开
- 专利标题: 一种基于图文多模态融合的文档片段语义相似度判定算法
-
申请号: CN202211015806.9申请日: 2022-08-24
-
公开(公告)号: CN115391478A公开(公告)日: 2022-11-25
- 发明人: 汤力 , 杨震乾 , 梁国迪 , 潘媛
- 申请人: 云南电网有限责任公司信息中心
- 申请人地址: 云南省昆明市拓东路73号
- 专利权人: 云南电网有限责任公司信息中心
- 当前专利权人: 云南电网有限责任公司信息中心
- 当前专利权人地址: 云南省昆明市拓东路73号
- 代理机构: 安徽智联芯知识产权代理事务所
- 代理商 刘书宇
- 主分类号: G06F16/31
- IPC分类号: G06F16/31 ; G06F16/35 ; G06F16/383 ; G06F16/55 ; G06F16/583 ; G06F40/194 ; G06F40/30
摘要:
本发明涉及相似度判定领域,具体为一种基于图文多模态融合的文档片段语义相似度判定算法,其包括以下步骤:S1、对库中的文档和图片进行多模态融合;S2、输入待判断的文档片段;S3、对文档片段进行自动分类标记,同时进行文档的向量化表征;S4、对文档的分类标记进行图片检索,得到相似度a,对向量化表征进行文档检索,得到相似度b;S5、根据结合规则对相似度a和相似度b进行整合,得到最终的文档片段语义相似度判定数值。本发明中,结合对待检测文档片段的分类标记和向量化表征,分别进行图片检索和文档检索,基于图文多模态融合,有效扩大了文档片段语义相似度判定的检索范围,提高了相似度判定的准确性。