音频情绪识别模型的训练方法、装置、设备和可读介质

发明公开

CN117711441A 音频情绪识别模型的训练方法、装置、设备和可读介质审中-实审

请登陆查看更多内容

专利标题： 音频情绪识别模型的训练方法、装置、设备和可读介质
申请号： CN202311542716.X

申请日： 2023-11-17
公开(公告)号： CN117711441A

公开(公告)日： 2024-03-15
发明人: 曾孙禄 , 王培英 , 何晓冬 , 陈俊卿 , 范璐 , 陈蒙
申请人： 京东城市(北京)数字科技有限公司 , 京东科技信息技术有限公司
申请人地址： 北京市海淀区知春路76号(写字楼)1号楼9层1-7-5号;
专利权人： 京东城市(北京)数字科技有限公司,京东科技信息技术有限公司
当前专利权人： 京东城市(北京)数字科技有限公司,京东科技信息技术有限公司
当前专利权人地址： 北京市海淀区知春路76号(写字楼)1号楼9层1-7-5号;
代理机构： 北京律智知识产权代理有限公司
代理商 陈媛婧
主分类号： G10L25/63
IPC分类号： G10L25/63 ; G10L25/06 ; G10L25/30 ; G10L15/06

摘要：

本公开提供一种音频情绪识别模型的训练方法、装置、设备和可读介质，其中，音频情绪识别模型的训练方法包括：提取音频样本中的关键帧的语音状态；根据预设的嵌入向量编码信息确定关键帧的语音状态对应的情绪标签嵌入向量；根据情绪标签嵌入向量和音频样本的独热向量确定损失函数的输入；基于损失函数对音频情绪识别模型进行训练。通过本公开实施例，使得音频情绪识别模型在训练过程中能够学习到更加泛化的情绪特征，更准确且可靠地进行情绪识别。

信息查询

中国专利公布公告 Global Dossier Espacenet

IPC分类:

G	物理
G10	乐器；声学
G10L	语音分析或合成；语音识别；语音或声音处理；语音或音频编码或解码
G10L25/00	不限于组G10L 15/00-G10L 21/00的语言或者声音分析技术(当利用语音检测器来感知一些信号特殊特征的基于半导体的静噪放大器，如无信号时的感知入H03G3/34)
G10L25/48	.专门适用于特定用途
G10L25/51	..比较或判别
G10L25/63	...情感状态估计