发明公开
- 专利标题: 图像翻译模型构建方法、图像翻译方法和装置
-
申请号: CN202410265853.1申请日: 2024-03-08
-
公开(公告)号: CN118396835A公开(公告)日: 2024-07-26
- 发明人: 丁昆 , 武华 , 王颖 , 孟高峰 , 向世明 , 潘春洪
- 申请人: 中国科学院自动化研究所
- 申请人地址: 北京市海淀区中关村东路95号
- 专利权人: 中国科学院自动化研究所
- 当前专利权人: 中国科学院自动化研究所
- 当前专利权人地址: 北京市海淀区中关村东路95号
- 代理机构: 北京路浩知识产权代理有限公司
- 代理商 王婷
- 主分类号: G06T3/04
- IPC分类号: G06T3/04 ; G06V10/26 ; G06V10/774 ; G06V10/80 ; G06V10/82 ; G06T7/11 ; G06T7/136 ; G06N3/0455 ; G06N3/0464 ; G06N3/084
摘要:
本发明提供一种图像翻译模型构建方法、图像翻译方法和装置,构建方法包括:获取训练样本组;基于初始模型中的编码模块,提取可见光样本图像的图像特征;获取提示特征、可学习的掩码输出特征和红外输出特征,并将提示特征、掩码输出特征和红外输出特征进行拼接,得到拼接特征;基于图像特征和拼接特征分别进行掩码图像预测和红外图像预测,分别得到预测掩码图像和预测红外图像;基于红外标签图像与预测红外图像之间的差异,以及掩码标签图像与预测掩码图像之间的差异,对初始模型进行参数迭代,得到图像翻译模型。本发明提供的方法和装置,能够实现交互式图像翻译,且能提升图像翻译的精度。