发明公开
- 专利标题: 一种图像的文本描述信息生成方法
-
申请号: CN202310978020.5申请日: 2023-08-03
-
公开(公告)号: CN117037177A公开(公告)日: 2023-11-10
- 发明人: 徐睿峰 , 王冰冰 , 梁斌 , 巫继鹏 , 杨敏
- 申请人: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)
- 申请人地址: 广东省深圳市桃源街道深圳大学城哈尔滨工业大学校区
- 专利权人: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)
- 当前专利权人: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)
- 当前专利权人地址: 广东省深圳市桃源街道深圳大学城哈尔滨工业大学校区
- 代理机构: 深圳市威世博知识产权代理事务所
- 代理商 时乐行
- 主分类号: G06V30/18
- IPC分类号: G06V30/18 ; G06V30/146 ; G06V10/82 ; G06N3/0464
摘要:
本申请公开了一种图像的文本描述信息生成方法,该图像的文本描述信息生成方法包括获取目标图像的图像特征、目标图像中目标物体的物体特征以及目标图像中目标区域的区域特征,目标区域基于目标图像中的目标物体确定;基于自适应注意机制对目标图像的图像特征进行处理,得到目标图像的全局表示;对目标物体的物体特征以及目标区域的区域特征进行局部感知处理,得到目标图像的局部表示;基于全局表示和局部表示进行解码处理,得到目标图像的目标文本描述信息。上述方案,能够提高文本描述信息生成的准确性。