专利检索 ap:("北京远鉴信息技术有限公司") AND inv:"张徐吉" 第 1 页

1.

发明授权
一种语音情绪识别方法、装置、电子设备及存储介质有权

公开(公告)号：CN118571267B

公开(公告)日：2024-11-12

申请号：CN202411053241.2

申请日：2024-08-02

申请人： 北京远鉴信息技术有限公司

发明人： 王红红 , 杨腾 , 张徐吉

IPC分类号： G10L25/63 , G10L25/30

摘要： 本申请提供了一种语音情绪识别方法、装置、电子设备及存储介质，包括：将目标语音输入至语音情绪识别的特征编码网络层，进行特征编码处理得到第一特征向量以及注意力权重矩阵，对注意力权重矩阵进行重要程度计算得到第一情绪重要程度分数序列，将第一情绪重要程度分数序列以及第一特征向量输入至多个特征动态编码模块之中进行动态全局窗口以及动态局部窗口的编码处理，输出目标特征向量以及目标特征向量的目标情绪重要程度分数序列；将目标特征向量输入至情绪分类网络层之中，对目标特征向量进行平均池化处理以及多层感知机分类处理，输出目标语音的情绪标签，实现了捕捉分散在语音的不同区域的语音情感信息，有效提高了语音情绪识别的准确率。

2.

发明公开
一种说话人分割聚类方法、装置、电子设备及存储介质审中-公开

公开(公告)号：CN118887960A

公开(公告)日：2024-11-01

申请号：CN202411355582.5

申请日：2024-09-27

申请人： 北京远鉴信息技术有限公司

发明人： 杜雨轩 , 杨腾 , 张徐吉

IPC分类号： G10L17/02 , G10L15/04 , G10L15/16 , G10L17/08 , G10L17/18 , G06N3/0464 , G06N3/0442 , G06N3/08

摘要： 本发明涉及说话人分割聚类技术领域，尤其涉及一种说话人分割聚类方法、装置、电子设备及存储介质，该方法包括：根据音频数据中在初始说话人转换点对应前一个初始音频数据段的声源方向与后一个初始音频数据段的声源方向的差值，从初始说话人转换点中筛选目标说话人转换点；基于所有目标说话人转换点分割音频数据，得到目标音频数据段；构建所有目标音频数据段的声纹向量、所有历史音频数据段对应的声纹向量之间的相似度矩阵；基于相似度矩阵对所有目标音频数据段、所有历史音频数据段进行谱聚类，得到说话人聚类结果。本申请能够对音频数据进行说话人分割聚类，提高了说话人分割聚类的准确率。

3.

发明公开
一种语音情绪识别方法、装置、电子设备及存储介质有权

公开(公告)号：CN118571267A

公开(公告)日：2024-08-30

申请号：CN202411053241.2

申请日：2024-08-02

申请人： 北京远鉴信息技术有限公司

发明人： 王红红 , 杨腾 , 张徐吉

IPC分类号： G10L25/63 , G10L25/30

摘要： 本申请提供了一种语音情绪识别方法、装置、电子设备及存储介质，包括：将目标语音输入至语音情绪识别的特征编码网络层，进行特征编码处理得到第一特征向量以及注意力权重矩阵，对注意力权重矩阵进行重要程度计算得到第一情绪重要程度分数序列，将第一情绪重要程度分数序列以及第一特征向量输入至多个特征动态编码模块之中进行动态全局窗口以及动态局部窗口的编码处理，输出目标特征向量以及目标特征向量的目标情绪重要程度分数序列；将目标特征向量输入至情绪分类网络层之中，对目标特征向量进行平均池化处理以及多层感知机分类处理，输出目标语音的情绪标签，实现了捕捉分散在语音的不同区域的语音情感信息，有效提高了语音情绪识别的准确率。