-
公开(公告)号:CN118823856A
公开(公告)日:2024-10-22
申请号:CN202410982071.X
申请日:2024-07-22
申请人: 桂林电子科技大学
发明人: 首照宇 , 黄旖 , 李东旭 , 冯程 , 黄菊华 , 黄兰芳 , 莫建文 , 张会兵 , 张敬伟 , 林熠明 , 欧阳宁 , 赵晖 , 刘京华 , 张彤 , 陈镜全 , 刘杭 , 刘子阅 , 袁小虎 , 于泳波 , 唐雍盛 , 林彦君
摘要: 本发明公开了一种基于多尺度与深层细粒度特征增强的表情识别方法,包括:构建多尺度双池化特征聚合模块,该模块由多尺度特征提取、多尺度关键特征选择和多尺度特征聚合三部分组成,通过骨干网络IR50获取四阶段的多尺度特征,并结合通道注意力机制提取多尺度表情特征中的全局有效信息,以捕捉和融合面部不同尺度的信息,从而获取全面的面部关键特征表示;引入关键区域导向的注意力机制,通过自适应地调整关注区域,提高了模型对面部细节特征的敏感度,更多地关注面部表情的细微差别,进一步增强对多尺度深层次的细粒度特征表示;通过融合多尺度和深层细粒度注意力增强特征,获取更为丰富和准确的面部关键信息,从而实现对面部表情的精准分类。
-
公开(公告)号:CN118823636A
公开(公告)日:2024-10-22
申请号:CN202410825570.8
申请日:2024-06-25
申请人: 桂林电子科技大学
IPC分类号: G06V20/40 , G06V20/52 , G06V40/20 , G06V10/44 , G06V10/771 , G06V10/82 , G06N3/045 , G06N3/0464
摘要: 本发明公开了一种基于动态位置嵌入的课堂完备元动作识别方法,包括:得到单个学生课堂元动作视频、对视频进行关键帧采样;构建由动态位置嵌入的位置编码模块、Video Swin Transformer基本模块、ViT3D基本模块组成的课堂完备元动作识别模型,依次获得动态位置特征表示、多个局部注意力向量、元动作类别概率向量、对课堂完备元动作识别模型进行迭代优化;将预处理后学生课堂元动作视频输入该模型获得课堂学生元动作类别。这种方法不仅使用动态位置嵌入方法进行条件位置编码结合深度卷积网络以提升对元动作空间结构的解析能力,并采用ViT3D的全注意力机制提取动作的潜在空间特征,捕捉元动作的全局时空信息,从而提升课堂视频的学生完备元动作识别准确率。
-