发明公开
- 专利标题: 图文互生模型的训练方法及装置
-
申请号: CN202410177798.0申请日: 2024-02-08
-
公开(公告)号: CN118014049A公开(公告)日: 2024-05-10
- 发明人: 段东圣 , 侯炜 , 段运强 , 时磊 , 井雅琪 , 段荣昌 , 吕东 , 佟玲玲 , 任博雅 , 刘雨帆 , 胡卫明 , 李兵
- 申请人: 国家计算机网络与信息安全管理中心 , 中国科学院自动化研究所
- 申请人地址: 北京市朝阳区裕民路甲3号;
- 专利权人: 国家计算机网络与信息安全管理中心,中国科学院自动化研究所
- 当前专利权人: 国家计算机网络与信息安全管理中心,中国科学院自动化研究所
- 当前专利权人地址: 北京市朝阳区裕民路甲3号;
- 代理机构: 北京路浩知识产权代理有限公司
- 代理商 李柱雄
- 主分类号: G06N3/09
- IPC分类号: G06N3/09 ; G06N3/0455 ; G06F18/22 ; G06F18/2431 ; G06F40/30 ; G06V20/70 ; G06V10/40 ; G06V10/82
摘要:
本发明提供一种图文互生模型的训练方法,该方法包括:基于模态自感单元从样本模态数据中提取自感信息;模态自感单元基于自注意力网络通过多任务有监督训练得到;基于图文编码器对自感信息进行编码,得到隐空间特征,并对隐空间特征进行多模态扩散处理,得到扩散后的目标模态类型的隐空间特征;基于图文解码器对自感信息和扩散后的目标模态类型的隐空间特征进行解码,得到解码信息;根据解码信息和多任务损失函数对图文编码器和图文解码器进行训练,得到图文互生模型;目标损失包括重建损失、图像类的理解辅助任务对应损失和文本类的理解辅助任务对应损失确定。本发明所述方法提高了图文互生对应模型的性能和可适配性。