- 专利标题: 一种基于长短期记忆网络的语音端点检测方法及系统
-
申请号: CN202110217938.9申请日: 2021-02-26
-
公开(公告)号: CN112967739A公开(公告)日: 2021-06-15
- 发明人: 张鹏 , 李姝 , 李晔 , 冯涛 , 汪付强
- 申请人: 山东省计算中心(国家超级计算济南中心)
- 申请人地址: 山东省济南市历下区科院路19号
- 专利权人: 山东省计算中心(国家超级计算济南中心)
- 当前专利权人: 山东省计算中心(国家超级计算济南中心)
- 当前专利权人地址: 山东省济南市历下区科院路19号
- 代理机构: 济南圣达知识产权代理有限公司
- 代理商 李圣梅
- 主分类号: G10L25/87
- IPC分类号: G10L25/87 ; G10L25/30 ; G06N3/04 ; G06N3/08 ; G06K9/62
摘要:
本公开提出了一种基于长短期记忆网络的语音端点检测方法及系统,包括:从语音数据中针对每一语音帧提取多分辨率耳蜗图特征,在一定范围内选取其数个上下文帧,将这些上下文帧按照时间顺序生成输入数据;将输入数据输入到训练后的注意力增强型长短期记忆网络中,生成局部增强的上下文帧语境信息;将局部增强后的数据输入到多头注意力层,生成全面增加权重的上下文帧信息;将全面增加权重的数据输入到神经网络(分类器)中,进行语音端点检测并生成预测结果。在编码器中使用一个注意力增强型LSTM网络,不但解决了多头注意力的位置模糊问题,同时利用数个历史时刻的状态信息,增强记忆的长、短期效果,比单一的LSTM更能突出重要的某几帧的效果。
公开/授权文献
- CN112967739B 一种基于长短期记忆网络的语音端点检测方法及系统 公开/授权日:2022-09-06