-
公开(公告)号:CN117274855A
公开(公告)日:2023-12-22
申请号:CN202311058507.8
申请日:2023-08-22
Applicant: 杭州电子科技大学丽水研究院
Inventor: 颜成钢 , 金裕达 , 郭雨晨 , 赵思成 , 孙垚棋 , 朱尊杰 , 高宇涵 , 王鸿奎 , 赵治栋 , 殷海兵 , 王帅 , 张继勇 , 李宗鹏 , 丁贵广 , 付莹 , 李晓林 , 沙雏淋
IPC: G06V20/40 , G06V10/774 , G06V10/764 , G06V10/82 , G06N3/0464
Abstract: 本发明公开了一种基于多维度信息交互的视频特征提取方法,首先进行数据集获取,采用现有的视频分类数据集;构建基于多维度信息交互的视频特征提取网络,包括前缀卷积网络、时空可分离编码器和视频分类器;之后构建损失函数,最后根据获取的数据集对构建的基于多维度信息交互的视频特征提取网络进行训练。本发明将时序信息交互与空间信息交互相结合,弥补了两者不能共存的短板。使用前缀卷积网络以及时间空间可分离注意力机制,减少了大量的算力开销。
-
公开(公告)号:CN117034868A
公开(公告)日:2023-11-10
申请号:CN202311058516.7
申请日:2023-08-22
Applicant: 杭州电子科技大学
Inventor: 颜成钢 , 金裕达 , 丁贵广 , 付莹 , 郭雨晨 , 赵思成 , 孙垚棋 , 朱尊杰 , 高宇涵 , 王鸿奎 , 赵治栋 , 殷海兵 , 王帅 , 张继勇 , 李宗鹏 , 沙雏淋 , 李晓林
IPC: G06F40/151 , G06F18/214 , G06F18/27 , G06N3/0455 , G06N3/0464 , G06N3/09 , G06N3/0475
Abstract: 本发明公开了一种基于BERT的图像描述扩散生成方法,包括步骤如下:步骤1:获取训练数据集;步骤2:搭建文本自编码模型MA;步骤3:训练文本自编码模型MA;步骤4:构建扩散模型MD;步骤5:训练扩散模型MD;步骤6:联合推理。将训练好的文本自编码模型MA和扩散模型MD进行结合。本发明将bert编码器引入扩散模型,将文本信息编码成连续的形式,使用额外的文本生成网络,使用自回归方式生成预测文本;结合了自回归和扩散模型的优势。
-