-
公开(公告)号:CN118571267B
公开(公告)日:2024-11-12
申请号:CN202411053241.2
申请日:2024-08-02
申请人: 北京远鉴信息技术有限公司
摘要: 本申请提供了一种语音情绪识别方法、装置、电子设备及存储介质,包括:将目标语音输入至语音情绪识别的特征编码网络层,进行特征编码处理得到第一特征向量以及注意力权重矩阵,对注意力权重矩阵进行重要程度计算得到第一情绪重要程度分数序列,将第一情绪重要程度分数序列以及第一特征向量输入至多个特征动态编码模块之中进行动态全局窗口以及动态局部窗口的编码处理,输出目标特征向量以及目标特征向量的目标情绪重要程度分数序列;将目标特征向量输入至情绪分类网络层之中,对目标特征向量进行平均池化处理以及多层感知机分类处理,输出目标语音的情绪标签,实现了捕捉分散在语音的不同区域的语音情感信息,有效提高了语音情绪识别的准确率。
-
公开(公告)号:CN118887960A
公开(公告)日:2024-11-01
申请号:CN202411355582.5
申请日:2024-09-27
申请人: 北京远鉴信息技术有限公司
IPC分类号: G10L17/02 , G10L15/04 , G10L15/16 , G10L17/08 , G10L17/18 , G06N3/0464 , G06N3/0442 , G06N3/08
摘要: 本发明涉及说话人分割聚类技术领域,尤其涉及一种说话人分割聚类方法、装置、电子设备及存储介质,该方法包括:根据音频数据中在初始说话人转换点对应前一个初始音频数据段的声源方向与后一个初始音频数据段的声源方向的差值,从初始说话人转换点中筛选目标说话人转换点;基于所有目标说话人转换点分割音频数据,得到目标音频数据段;构建所有目标音频数据段的声纹向量、所有历史音频数据段对应的声纹向量之间的相似度矩阵;基于相似度矩阵对所有目标音频数据段、所有历史音频数据段进行谱聚类,得到说话人聚类结果。本申请能够对音频数据进行说话人分割聚类,提高了说话人分割聚类的准确率。
-
公开(公告)号:CN118571267A
公开(公告)日:2024-08-30
申请号:CN202411053241.2
申请日:2024-08-02
申请人: 北京远鉴信息技术有限公司
摘要: 本申请提供了一种语音情绪识别方法、装置、电子设备及存储介质,包括:将目标语音输入至语音情绪识别的特征编码网络层,进行特征编码处理得到第一特征向量以及注意力权重矩阵,对注意力权重矩阵进行重要程度计算得到第一情绪重要程度分数序列,将第一情绪重要程度分数序列以及第一特征向量输入至多个特征动态编码模块之中进行动态全局窗口以及动态局部窗口的编码处理,输出目标特征向量以及目标特征向量的目标情绪重要程度分数序列;将目标特征向量输入至情绪分类网络层之中,对目标特征向量进行平均池化处理以及多层感知机分类处理,输出目标语音的情绪标签,实现了捕捉分散在语音的不同区域的语音情感信息,有效提高了语音情绪识别的准确率。
-
-