发明授权
CN105632501B 一种基于深度学习技术的自动口音分类方法及装置
失效 - 权利终止
- 专利标题: 一种基于深度学习技术的自动口音分类方法及装置
-
申请号: CN201511021329.7申请日: 2015-12-30
-
公开(公告)号: CN105632501B公开(公告)日: 2019-09-03
- 发明人: 刘文举 , 陈明明 , 张邯平 , 高鹏 , 董理科 , 刘晓飞 , 乔利玮 , 王桐
- 申请人: 中国科学院自动化研究所 , 国网山西省电力公司电力科学研究院 , 山西振中电力股份有限公司
- 申请人地址: 北京市海淀区中关村东路95号
- 专利权人: 中国科学院自动化研究所,国网山西省电力公司电力科学研究院,山西振中电力股份有限公司
- 当前专利权人: 中国科学院自动化研究所,国网山西省电力公司电力科学研究院,山西振中电力股份有限公司
- 当前专利权人地址: 北京市海淀区中关村东路95号
- 代理机构: 中科专利商标代理有限责任公司
- 代理商 宋焰琴
- 主分类号: G10L15/32
- IPC分类号: G10L15/32 ; G10L25/24 ; G10L15/16
摘要:
本发明公开了一种基于深度学习技术的自动口音分类方法和装置,方法包括:对训练集中的所有带口音语音进行去除静音并提取MFCC特征;根据所提取的MFCC特征训练各种带口音语音的深层神经网络,以描述各种带口音语音的声学特性,其中所述深层神经网络指至少包含两个隐层的前向人工神经网络;计算待识别语音中各语音帧在深层神经网络上的各口音分类的概率得分,将概率得分最大的口音类别标签置为该语音帧的口音类别标签;使用待识别语音中的每个语音帧的口音类别进行多数投票,得到待识别语音相对应的口音类别。本发明可以有效利用上下文信息,从而可以提供比传统浅层模型更好的分类效果。
公开/授权文献
- CN105632501A 一种基于深度学习技术的自动口音分类方法及装置 公开/授权日:2016-06-01