-
公开(公告)号:CN117744022A
公开(公告)日:2024-03-22
申请号:CN202311644928.9
申请日:2023-12-04
申请人: 南京邮电大学
IPC分类号: G06F18/25 , G06V40/16 , G06V10/82 , G06N3/0464 , G06F18/241
摘要: 本发明提供了一种基于时空双向扩张因果卷积和Transfomer的多模态情感识别方法,包括:处理表情、语音模态的视频,得到表情序列和语谱图序列,提取姿态特征得到姿态特征序列;ResNet18网络处理表情和语音模态,得到特征图,重排列特征图构成对应的空间特征序列;对得到的空间特征序列通过空间注意力双向扩张因果卷积网络捕获空间上的依赖关系;再将表情和语音特征序列以及姿态特征序列送入时间注意力双向扩张因果卷积网络捕获时间上的依赖关系;将表情、语音、姿态特征堆叠得到特征矩阵,通过Transformer实现特征融合。本发明通过时空双向扩张因果卷积网络捕获模态内部的时空依赖,获得聚合了时空信息的高级模态特征,采用Transformer捕获模态间的特征交互,实现多模态特征融合。