一种面向语音识别模型的动态掩码方法

    公开(公告)号:CN116229941A

    公开(公告)日:2023-06-06

    申请号:CN202310242375.8

    申请日:2023-03-14

    发明人: 李雪 周星宏

    摘要: 本发明公开一种面向语音识别模型的动态掩码方法,步骤为:对语音数据集中原始音频输入进行声学特征提取,将原始的不定长时序信号转换成特征向量表示,使声学信号由非平稳参数信号变为阈值范围内的平稳信号,得到音频对应的帧级特征序列;对帧级特征进行编码,使用CTC进行序列建模,将识别为空帧所对应的特征向量掩码为0;定义二分函数避免神经网络的行为不稳定和CTC计算问题;将二分函数处理后的表示传递给语音识别模块,完成建模,最终实现动态掩码。本发明在编码过程中借助CTC的尖峰特性来检测空帧,同时解决了掩码输入后无法计算CTC的问题,从而缩短序列的长度,减少计算资源;同时可以有效的借助CTC来帮助模型收敛。

    基于预训练知识增强的低资源神经机器翻译系统构建方法

    公开(公告)号:CN115879481A

    公开(公告)日:2023-03-31

    申请号:CN202211583954.0

    申请日:2022-12-09

    发明人: 付鹏飞 周星宏

    摘要: 本发明公开一种基于预训练知识增强的低资源神经机器翻译系统构建方法,在网络上获取Transformer编码器的预训练语言模型;获取需要构建神经机器翻译系统的低资源语言对数据集并清洗;获取语言分析工具对训练数据进行分析,掩码关键词,并使用处理过的数据微调预训练语言模型;搭建神经机器翻译模型,使用Transformer解码器并随机初始化参数作为神经机器翻译模型解码器;逐步训练神经机器翻译模型的编码器和解码器;将训练好的神经机器翻译模型部署在高性能云服务器上,并搭建前端及后端处理程序,完成整个机器翻译系统构建。本发明在多个方法上取得性能提升,能够在两阶段训练的基础上,进一步提升机器翻译模型的性能。