一种针对音频信息的文字及声纹识别方法、系统及应用

发明公开

CN117877512A 一种针对音频信息的文字及声纹识别方法、系统及应用审中-实审

请登陆查看更多内容

专利标题： 一种针对音频信息的文字及声纹识别方法、系统及应用
申请号： CN202311501129.6

申请日： 2023-11-10
公开(公告)号： CN117877512A

公开(公告)日： 2024-04-12
发明人: 翟洪婷 , 张庆锐 , 张延童 , 翟启 , 孙丽丽 , 卞若晨 , 权玮虹 , 王敏 , 孟祥鹿 , 毛恒 , 李青
申请人： 国网山东省电力公司信息通信公司
申请人地址： 山东省济南市市中区经三路17号
专利权人： 国网山东省电力公司信息通信公司
当前专利权人： 国网山东省电力公司信息通信公司
当前专利权人地址： 山东省济南市市中区经三路17号
代理机构： 济南圣达知识产权代理有限公司
代理商 闫圣娟
主分类号： G10L25/18
IPC分类号： G10L25/18 ; G10L25/51 ; G10L25/27 ; G10L19/008

摘要：

本公开涉及自动语音识别技术领域，提出了一种针对音频信息的文字及声纹识别方法、系统及应用，包括如下步骤：将获取的待处理音频信号，进行预处理；将预处理后的音频信号输入至改进后的Conformer编码器进行编码，对音频信号转换后的频谱特征图进行八度卷积下采样操作，得到编码特征；将编码后的特征图进行解码，得到文字识别信息；将编码后的特征图采用分类鉴别器进行声纹身份识别处理后，得到身份信息。以Conformer为骨干架构进行改进，能够有效处理噪声，同时实现了基于音频信息的语音识别与身份识别，能够在实施调度过程中，确保调度指令的可靠性及安全性，并实现了端到端的声纹身份识别。

信息查询

中国专利公布公告 Global Dossier Espacenet

IPC分类:

G	物理
G10	乐器；声学
G10L	语音分析或合成；语音识别；语音或声音处理；语音或音频编码或解码
G10L25/00	不限于组G10L 15/00-G10L 21/00的语言或者声音分析技术(当利用语音检测器来感知一些信号特殊特征的基于半导体的静噪放大器，如无信号时的感知入H03G3/34)
G10L25/03	.以提取参数类型为特征的
G10L25/18	..提取参数的每个子带的频谱信息