一种基于深度学习的面部动作捕捉方法及系统

    公开(公告)号:CN114049678A

    公开(公告)日:2022-02-15

    申请号:CN202210023895.5

    申请日:2022-01-11

    Abstract: 本发明公开了一种基于深度学习的面部动作捕捉方法及系统,包括以下步骤:S1:使用深度相机采集人脸的视频数据和对应的深度数据,构建数据集;S2:构建面部动作识别网络,使用所述数据集进行面部动作识别网络训练;S3:将任意视频序列输入训练后的面部动作识别网络,预测混合形状系数;S4:将所述预测混合形状系数应用于任意的虚拟形象上,驱动虚拟形象的面部动作。系统包括视频采集模块,网络训练模块,面部动作预测模块,虚拟形象动画展示模块。本发明的算法运行速率高,只在训练时使用了深度信息进行训练,在预测阶段只需要输入单相机拍摄的视频就可以完成动作捕捉,无需额外的深度采集设备,可实时的进行面部动作捕捉。

    一种说话人自适应的多视角对话情感识别方法及系统

    公开(公告)号:CN113571097A

    公开(公告)日:2021-10-29

    申请号:CN202111141588.9

    申请日:2021-09-28

    Abstract: 本发明公开了一种说话人自适应的多视角对话情感识别方法及系统,方法包括:S1,将多轮对话中,每条对话语句的说话人,映射到对应的说话人ID序列,去除说话人具体身份;S2,对说话人ID标记后的多轮对话,进行融合说话人信息的上下文编码,得到对话中每个语句的上下文编码表征;S3,基于上下文编码表征,进行说话人自适应的多视角全局对话信息融合编码,得到对话的多视角全局融合信息;S4,将多视角的全局融合信息,进行自适应的信息汇总,并对语句最终情感进行识别;系统包括:依次连接的多轮对话预处理模块、上下文编码模块、多视角全局融合编码模块和情感识别模块。

    主题导向的多模态数据情感分析方法

    公开(公告)号:CN117744016A

    公开(公告)日:2024-03-22

    申请号:CN202310441907.0

    申请日:2023-04-23

    Abstract: 本发明提供了一种主题导向的多模态数据情感分析方法,具有这样的特征,包括以下步骤:步骤S1~S4,根据图片信息Image和文本信息Text,得到主题相关的图片信息It和文本特征向量T;步骤S5~S6,根据主题相关的图片信息It和文本特征向量T,得到双向数据融合结果ZT→I和ZI→T;步骤S7,将双向数据融合结果ZT→I和ZI→T经由contact操作和标准Transformer网络,得到图文融合表示;步骤S8,将图文融合表示依次经由全连接层和Softmax计算,得到情感极性。总之,本方法能够提高情感分析预测结果的准确性。

    一种音频生成的方法、存储介质及电子设备

    公开(公告)号:CN115910002B

    公开(公告)日:2023-05-16

    申请号:CN202310017843.1

    申请日:2023-01-06

    Abstract: 本说明书公开了一种音频生成的方法、存储介质及电子设备,其中,可以获取实际音频以及该实际音频的相关信息;将该实际音频对应的歌词信息与音乐风格信息输入到歌谱生成模型中,得到歌谱预测结果,并以最小化该歌谱预测结果与该歌谱信息之间的差异为优化目标,对该歌谱预测模型进行训练。还可以将歌谱信息、歌词信息以及音乐风格信息输入到音频生成模型中,以使音频生成模型预测实际音频的音频频谱特征,并根据该音频频谱特征生成目标音频,并以最小化目标音频与实际音频之间的差异为优化目标,对音频生成模型进行训练,训练后的歌谱预测模型与训练后的音频生成模型可以共同用于通过用户的输入生成音频,从而提高了音乐生成的效果。

    一种模型训练方法、装置、设备及存储介质

    公开(公告)号:CN115620706A

    公开(公告)日:2023-01-17

    申请号:CN202211385690.8

    申请日:2022-11-07

    Abstract: 本说明书公开了一种模型训练方法、装置、设备及存储介质,可以从识别模型的特征提取层提取出的目标语音特征中,提取出包含有幅度信息和相位信息的第一语音特征和第二语音特征,从而可以通过多任务学习,基于第一语音特征和第二语音特征对识别模型进行训练,进而可以使识别模型能够有效地根据语音数据中包含的幅度信息和相位信息,进行情感识别,以提升识别出的情感的准确率。

    一种跨模态上下文编码的对话情感识别方法及系统

    公开(公告)号:CN114463688A

    公开(公告)日:2022-05-10

    申请号:CN202210377011.6

    申请日:2022-04-12

    Abstract: 本发明公开一种跨模态上下文编码的对话情感识别方法及系统,该方法包括:步骤S1,将多轮对话中每条语句对应的视频模态、音频模态及文本模态信息分别进行编码,得到各语句对应的视觉模态、语音模态及文本模态表征向量序列;步骤S2,将多轮对话的视觉模态表征向量序列、语音模态表征向量序列及文本模态表征向量序列分别进行模态内的上下文编码,得到对话中各语句的单模态上下文编码表征;步骤S3,将对话中各语句的单模态上下文编码表征进行两两组合编码,得到对话中各语句跨模态融合的上下文编码;步骤S4,将跨模态融合的上下文编码表征进行自适应的信息汇总,并对语句的情感类别进行判断。本发明能够有效提升对话情感的识别精度。

    一种模型训练方法、装置、设备及存储介质

    公开(公告)号:CN115620706B

    公开(公告)日:2023-03-10

    申请号:CN202211385690.8

    申请日:2022-11-07

    Abstract: 本说明书公开了一种模型训练方法、装置、设备及存储介质,可以从识别模型的特征提取层提取出的目标语音特征中,提取出包含有幅度信息和相位信息的第一语音特征和第二语音特征,从而可以通过多任务学习,基于第一语音特征和第二语音特征对识别模型进行训练,进而可以使识别模型能够有效地根据语音数据中包含的幅度信息和相位信息,进行情感识别,以提升识别出的情感的准确率。

    一种基于语音深度表征映射的语音翻译方法及系统

    公开(公告)号:CN115312029B

    公开(公告)日:2023-01-31

    申请号:CN202211244884.6

    申请日:2022-10-12

    Abstract: 本发明公开了一种基于语音深度表征映射的语音翻译方法及系统属于人工智能领域,涉及人工智能领域,本发明基于语音深度表征映射的语音翻译方法及海量无标注数据和大量成对数据训练深度学习模型,可以方便的使用海量影视等媒体数据进行模型训练,方便的应用于各种语言语音的互译,提供了一种便捷通用的语音互译方案;本发明基于语音深度表征映射的语音翻译方法提供了一种声纹嵌入的声码器进行语音合成,可实现语音翻译发音音色指定可控,并且能够使得合成的语音保真度更高;本发明的语音深度表征映射的语音翻译系统集成了基于语音深度表征映射的语音翻译方法,能够实现语音直接翻译任务,简化了语音翻译的流程,提高了语音翻译的精度。

    一种价值需求特征驱动的文本情感识别、训练方法及装置

    公开(公告)号:CN115496076A

    公开(公告)日:2022-12-20

    申请号:CN202211355285.1

    申请日:2022-11-01

    Inventor: 阮玉平 李太豪

    Abstract: 本发明公开了一种价值需求特征驱动的文本情感识别、训练方法及装置,包括价值需求标注语料采集模块、价值需求回归模型构建模块、输入文本特征提取模块和文本情感预测模块,通过采集原始短文本,并对每条短文本,基于不同的维度的价值需求,进行价值需求标注,得到价值需求标注语料集;于预训练语言模型,在价值需求标注语料上进行微调学习,得到训练好的价值需求回归模型;基于价值回归模型提取输入文本的价值需求特征,基于预训练语言模型提取输入文本的语义特征;基于输入文本的价值需求特征和语义特征,进行最终的情感识别。本发明可有效提升文本情感识别的精度。

    一种语音的合成方法、装置、设备及存储介质

    公开(公告)号:CN115457931A

    公开(公告)日:2022-12-09

    申请号:CN202211378555.0

    申请日:2022-11-04

    Abstract: 本说明书公开了一种语音的合成方法、装置、设备及存储介质,通过将获取到的语音文本数据拆分为多个字语音文本数据,并且每个子语音文本数据之间存在重叠,从而使得在将每个子语音文本数据对应的情感语音数据进行合成时,可以针对重叠的部分进行优化处理,以使各子语音文本数据对应的情感语音数据过渡时更加自然。进而通过预测模型,针对每个子语音文本数据,在考虑到预测出的上一个子语音文本数据对应的情感强度值的基础上,预测出该子语音文本数据的情感强度值,以避免任意相邻的两个子语音文本数据之间的情感强度的变化较为生硬的问题,最后通过语音合成模型,合成与所述语音文本数据对应的情感语音,进而可以使合成的情感语音数据更加拟人化。

Patent Agency Ranking