一种基于多域异质图引导的视觉问题常识推理模型及方法

发明授权

CN110598573B 一种基于多域异质图引导的视觉问题常识推理模型及方法有权转让

请登陆查看更多内容

专利标题： 一种基于多域异质图引导的视觉问题常识推理模型及方法
申请号： CN201910772828.1

申请日： 2019-08-21
公开(公告)号： CN110598573B

公开(公告)日： 2022-11-25
发明人: 王青 , 周静文 , 余伟江 , 梁小丹 , 林倞 , 肖侬
申请人： 中山大学
申请人地址： 广东省广州市海珠区新港西路135号大院
专利权人： 中山大学
当前专利权人： 中山大学,中国人民解放军国防科技大学
当前专利权人地址： 510220 广东省广州市海珠区新港西路135号大院
代理机构： 广州容大知识产权代理事务所
代理商 刘新年
主分类号： G06V20/40
IPC分类号： G06V20/40 ; G06V10/764 ; G06V10/82 ; G06V10/70 ; G06N3/04 ; G06N3/08 ; G06N5/04

摘要：

本发明公开了一种基于多域异质图引导的视觉问题常识推理模型及方法，所述模型包括：预训练模型初始化单元，利用预训练模型对基础骨架网络和分类器参数进行初始化；视觉信息提取单元，用于利用检测器来提取输入图像的视觉信息的初始特征；上下文投票单元，用于提取全局视觉信息中未被标注的视觉隐含信息结合到视觉信息的局部特征之中；语言特征提取单元，用于利用自然语言预训练模型提取语言部分问题和答案的特征表示；多域特征推理融合单元，用于构造多域异质图，将视觉信息特征和语言信息特征利用多域异质图进行多域特征推理融合获得最终特征表示；分类单元，用于利用分类器对获得的特征处理后进行打分，选取得分高的选项为答案。

公开/授权文献

CN110598573A 一种基于多域异质图引导的视觉问题常识推理模型及方法公开/授权日：2019-12-20

信息查询

中国专利公布公告 Global Dossier Espacenet

IPC分类:

G	物理
G06	计算；推算或计数
G06V	图像或视频识别或理解
G06V20/00	场景；特定场景元素（控制数码相机 H04N5/232）
G06V20/40	.在视频内容中（提取叠加文本 G06V20/62）（视频检索 G06F16/70）（在视频服务器中处理视频基本流H04N21/234）（在视频客户端中处理视频基本流H04N21/44）