-
公开(公告)号:CN114566189B
公开(公告)日:2022-10-04
申请号:CN202210454745.X
申请日:2022-04-28
Applicant: 之江实验室
Abstract: 本发明属于人工智能领域,涉及基于三维深度特征融合的语音情感识别方法及系统,该方法包括:步骤一,采集开源数据集得到预训练的识别网络模型和经过去噪处理的干净情感语音音频;步骤二,对干净情感语音音频进行短时傅里叶变换后输入复数特征提取子网络,得到深度声谱图特征;步骤三,将干净情感语音音频输入预训练的语音识别网络模型和声纹识别网络模型,分别得到深度音素特征和深度声纹特征,后与深度声谱图特征融合;步骤四,将步骤三融合后的特征输入自注意力卷积块,生成深度复合特征,再进行注意力权重叠加后通过两层全连接层输出,经分类网络层分类识别出语音情感。本发明有效解决低资源训练模型导致的语音情感识别准确率低的问题。
-
公开(公告)号:CN114049678B
公开(公告)日:2022-04-12
申请号:CN202210023895.5
申请日:2022-01-11
Applicant: 之江实验室
Abstract: 本发明公开了一种基于深度学习的面部动作捕捉方法及系统,包括以下步骤:S1:使用深度相机采集人脸的视频数据和对应的深度数据,构建数据集;S2:构建面部动作识别网络,使用所述数据集进行面部动作识别网络训练;S3:将任意视频序列输入训练后的面部动作识别网络,预测混合形状系数;S4:将所述预测混合形状系数应用于任意的虚拟形象上,驱动虚拟形象的面部动作。系统包括视频采集模块,网络训练模块,面部动作预测模块,虚拟形象动画展示模块。本发明的算法运行速率高,只在训练时使用了深度信息进行训练,在预测阶段只需要输入单相机拍摄的视频就可以完成动作捕捉,无需额外的深度采集设备,可实时的进行面部动作捕捉。
-
公开(公告)号:CN113611286B
公开(公告)日:2022-01-18
申请号:CN202111169207.8
申请日:2021-10-08
Applicant: 之江实验室
Abstract: 本发明属于人工智能领域,涉及一种基于共性特征提取的跨语种语音情感识别方法和系统,该系统包括:语音信号采集模块,采用高保真单麦克风或者麦克风阵列采集用户语音信号;语音信号预处理模块,用于将采集到的语音信号进行预处理,对语音进行端点检测,去除语音前后静音段,生成可用于神经网络处理的数据;跨语种语音情感识别模块,用于通过设计的复数网络模型处理声谱图特征,预测用户音频的情感类型;分析存储模块,用于存储用户的语音数据和情感标签数据,并根据实际业务进行统计分析。本发明能够有效解决跨语种的语音情感识别问题,解决音频中的相位特征处理问题,从而提取音频中更加精细的发音特征,提升语音情感识别精度。
-
公开(公告)号:CN113838174A
公开(公告)日:2021-12-24
申请号:CN202111412881.4
申请日:2021-11-25
Applicant: 之江实验室
Abstract: 本发明公开了一种音频驱动人脸动画生成方法、装置、设备和介质,该方法包括以下步骤:步骤1,采集语音信号,提取MFCC特征并输入音素识别器,获得语音的音素分类概率;步骤2,将音素分类概率输入Embedding层,得到音素的Embedding编码;步骤3,将音素的Embedding编码输入表情预测器,得到3D人脸的顶点位移;步骤4,将3D人脸顶点位移与自然表情的人脸模板相加,得到带说话表情的3D人脸;步骤5,将连续时间内的3D人脸渲染为2D图像,生成动画视频。本发明将发音和人脸表情直接关联,能够识别全球超2000种语言,具有更强的泛化能力,同时,可以为不同语言的动画进行配音,大大降低动画制作成本。
-
公开(公告)号:CN113611286A
公开(公告)日:2021-11-05
申请号:CN202111169207.8
申请日:2021-10-08
Applicant: 之江实验室
Abstract: 本发明属于人工智能领域,涉及一种基于共性特征提取的跨语种语音情感识别方法和系统,该系统包括:语音信号采集模块,采用高保真单麦克风或者麦克风阵列采集用户语音信号;语音信号预处理模块,用于将采集到的语音信号进行预处理,对语音进行端点检测,去除语音前后静音段,生成可用于神经网络处理的数据;跨语种语音情感识别模块,用于通过设计的复数网络模型处理声谱图特征,预测用户音频的情感类型;分析存储模块,用于存储用户的语音数据和情感标签数据,并根据实际业务进行统计分析。本发明能够有效解决跨语种的语音情感识别问题,解决音频中的相位特征处理问题,从而提取音频中更加精细的发音特征,提升语音情感识别精度。
-
公开(公告)号:CN113378806A
公开(公告)日:2021-09-10
申请号:CN202110934743.6
申请日:2021-08-16
Applicant: 之江实验室
IPC: G06K9/00 , G06K9/62 , G06T13/40 , G06N3/04 , G06N3/08 , G10L15/02 , G10L15/06 , G10L15/16 , G10L25/30 , G10L25/63
Abstract: 本发明属于人工智能领域,涉及一种融合情感编码的音频驱动人脸动画生成方法及系统,该方法为:首先对采集的音频信号进行预处理,提取MFCC特征后输入语音识别模块,进一步提取音频特征,同时将MFCC特征输入语音情感识别模块,得到情感类别并进行one‑hot编码,然后将音频特征和情感的one‑hot编码向量进行连接,输入表情识别模块得到基于3DMM模型的表情系数,最后将表情系数与人脸模板输入人脸动画生成模块,得到带表情的3D人脸动画。本发明方法计算量小,训练稳定,流程简单,成本低廉,能够极大的降低电影制作周期和成本,且充分考虑了语音传达的情感状态,对在网络中输入了情感编码,使得生成的人脸动画更加生动形象,能够给用户带来更优质的体验。
-
-
-
-
-