一种基于长短期记忆网络的语音端点检测方法及系统

发明公开

CN112967739A 一种基于长短期记忆网络的语音端点检测方法及系统有权

请登陆查看更多内容

专利标题： 一种基于长短期记忆网络的语音端点检测方法及系统
申请号： CN202110217938.9

申请日： 2021-02-26
公开(公告)号： CN112967739A

公开(公告)日： 2021-06-15
发明人: 张鹏 , 李姝 , 李晔 , 冯涛 , 汪付强
申请人： 山东省计算中心(国家超级计算济南中心)
申请人地址： 山东省济南市历下区科院路19号
专利权人： 山东省计算中心(国家超级计算济南中心)
当前专利权人： 山东省计算中心(国家超级计算济南中心)
当前专利权人地址： 山东省济南市历下区科院路19号
代理机构： 济南圣达知识产权代理有限公司
代理商 李圣梅
主分类号： G10L25/87
IPC分类号： G10L25/87 ; G10L25/30 ; G06N3/04 ; G06N3/08 ; G06K9/62

摘要：

本公开提出了一种基于长短期记忆网络的语音端点检测方法及系统，包括：从语音数据中针对每一语音帧提取多分辨率耳蜗图特征，在一定范围内选取其数个上下文帧，将这些上下文帧按照时间顺序生成输入数据；将输入数据输入到训练后的注意力增强型长短期记忆网络中，生成局部增强的上下文帧语境信息；将局部增强后的数据输入到多头注意力层，生成全面增加权重的上下文帧信息；将全面增加权重的数据输入到神经网络(分类器)中，进行语音端点检测并生成预测结果。在编码器中使用一个注意力增强型LSTM网络，不但解决了多头注意力的位置模糊问题，同时利用数个历史时刻的状态信息，增强记忆的长、短期效果，比单一的LSTM更能突出重要的某几帧的效果。

公开/授权文献

CN112967739B 一种基于长短期记忆网络的语音端点检测方法及系统公开/授权日：2022-09-06

信息查询

中国专利公布公告 Global Dossier Espacenet

IPC分类:

G	物理
G10	乐器；声学
G10L	语音分析或合成；语音识别；语音或声音处理；语音或音频编码或解码
G10L25/00	不限于组G10L 15/00-G10L 21/00的语言或者声音分析技术(当利用语音检测器来感知一些信号特殊特征的基于半导体的静噪放大器，如无信号时的感知入H03G3/34)
G10L25/78	.语音信号存在或不存在的检测（在双向扩音电话系统中通过语音频率切换传输的方向入H04M9/10）
G10L25/87	..语音信号内离散点的检测