一种用于语音识别的新型时延递归神经网络

    公开(公告)号:CN109360553A

    公开(公告)日:2019-02-19

    申请号:CN201811380751.5

    申请日:2018-11-20

    IPC分类号: G10L15/16

    摘要: 本发明公开了一种用于语音识别的新型时延递归神经网络,包括线性判别分析层、时延神经网络层和深度时延递归神经网络层,线性判别分析层与时延神经网络层最下层连接,深度时延递归神经网络层设置在两个时延神经网络层之间,包括深度神经网络层和时延递归神经网络层,时延递归神经网络层分别与上下两层时延神经网络层连接,深度神经网络层中的普通神经网络结构与时延递归神经网络层中的时延递归神经网络结构对应连接;本发明的一种用于语音识别的新型时延递归神经网络可在保持网络结构简单的同时,达到和长短时记忆单元相似的效果,从而提高训练效率、减少运算消耗、减少模型体积。

    一种基于随机深度时延神经网络模型的自动语音识别方法

    公开(公告)号:CN109065033A

    公开(公告)日:2018-12-21

    申请号:CN201811091089.1

    申请日:2018-09-19

    IPC分类号: G10L15/16 G10L15/14

    CPC分类号: G10L15/16 G10L15/144

    摘要: 本发明属于自动语音识别技术领域,涉及一种基于随机深度时延神经网络模型的自动语音识别方法,包括:准备训练数据;对训练语音音频数据提取声学特征;训练传统GMM‑HMM模型,用训练好的GMM‑HMM模型对训练语音音频数据进行强制对齐,得到对应的帧级别训练标注;利用训练语音音频数据和对应的帧级别训练标注,对基于随机深度的时延神经网络模型进行监督训练,最终结合隐马尔科夫模型得到声学模型;利用对应的文本标注数据或者其他数据集的文本进行训练,得到训练好的语言模型;利用训练好的语言模型和声学模型,构建自动语音识别的解码器。本发明不仅提高了模型的建模能力,还解决了训练过程中过拟合以及梯度消失的问题,从而提高了语音识别的准确性。

    一种基于文件传输的人脸表情识别方法及系统

    公开(公告)号:CN107133578A

    公开(公告)日:2017-09-05

    申请号:CN201710257046.5

    申请日:2017-04-19

    IPC分类号: G06K9/00 G06K9/62 G06N3/04

    摘要: 本发明公开了一种基于文件传输的人脸表情识别方法及系统,包括获取用户上传的人脸表情图像;系统对所述人脸表情图像进行预处理;通过recog指令及已经训练完成的深度神经网络和训练得到的模型对所述预处理后的人脸表情图像进行人脸表情识别与特征匹配;识别结果以文本文件的形式输出,通过文件传输,反馈给用户。本发明应用了文件传输模块,用户使用方便;采用了深度卷积神经网络对人脸表情图像特征提取并分类,可以快速准确的识别出人脸表情,操作简单,稳定可靠。

    基于BPE编码的序列化方法、训练方法、系统及存储介质

    公开(公告)号:CN111916063A

    公开(公告)日:2020-11-10

    申请号:CN202010484848.1

    申请日:2020-06-01

    摘要: 本发明公开了一种基于BPE编码的序列化方法、系统、装置及存储介质,其中方法包括以下步骤:获取中英混合的标注文本,采用基于BPE编码算法生成的字典将所述标注文本中的中文序列分为多个汉字,以及将所述标注文本中的英文序列拆分为多个字母串;将拆分获得的所述汉字和所述字母串作为标注序列,用于对端到端语音识别模型进行训练;所述字母串中包含有标识符,根据所述标识符将所述字母串合并成英文单词。本发明对于文本中的中文采用字级别的拆分,对于英文按照BPE编码所得字典进行拆分,解决中文字和英文单词发音长度不一致的问题,使得英文子串近似于中文发音长度,提升了端到端语音识别模型的性能,可广泛应用于计算机软件技术领域。

    一种基于文件传输的人脸表情识别方法及系统

    公开(公告)号:CN107133578B

    公开(公告)日:2020-05-22

    申请号:CN201710257046.5

    申请日:2017-04-19

    IPC分类号: G06K9/00 G06K9/62 G06N3/04

    摘要: 本发明公开了一种基于文件传输的人脸表情识别方法及系统,包括获取用户上传的人脸表情图像;系统对所述人脸表情图像进行预处理;通过recog指令及已经训练完成的深度神经网络和训练得到的模型对所述预处理后的人脸表情图像进行人脸表情识别与特征匹配;识别结果以文本文件的形式输出,通过文件传输,反馈给用户。本发明应用了文件传输模块,用户使用方便;采用了深度卷积神经网络对人脸表情图像特征提取并分类,可以快速准确的识别出人脸表情,操作简单,稳定可靠。

    一种改进的延时神经网络声学模型

    公开(公告)号:CN109147774B

    公开(公告)日:2021-07-20

    申请号:CN201811090966.3

    申请日:2018-09-19

    IPC分类号: G10L15/16

    摘要: 本发明属于语音识别技术领域,涉及一种改进的延时神经网络声学模型,包括:搭建基础TDNN网络;在相邻的两层隐藏层中间添加注意力模块,得到改进后的TDNN网络;针对改进后的TDNN网络进行训练,得到最终的声学模型。注意力模块由一个仿射变换和一个加权函数组成,以前一隐藏层的输出作为输入,提取对输入的特征权重值,用提取到的权重值为原输入特征加权,得到加权后的特征。本发明在考虑模型建模能力、对上下文信息提取能力及模型的大小等方面的因素下,通过多层次地为神经网络隐藏层特征加权,有效对层间特征的相对重要性进行显式建模,提高了TDNN声学模型的性能,从而提高了语音识别系统整体性能。

    一种基于随机深度时延神经网络模型的自动语音识别方法

    公开(公告)号:CN109065033B

    公开(公告)日:2021-03-30

    申请号:CN201811091089.1

    申请日:2018-09-19

    IPC分类号: G10L15/16 G10L15/14

    摘要: 本发明属于自动语音识别技术领域,涉及一种基于随机深度时延神经网络模型的自动语音识别方法,包括:准备训练数据;对训练语音音频数据提取声学特征;训练传统GMM‑HMM模型,用训练好的GMM‑HMM模型对训练语音音频数据进行强制对齐,得到对应的帧级别训练标注;利用训练语音音频数据和对应的帧级别训练标注,对基于随机深度的时延神经网络模型进行监督训练,最终结合隐马尔科夫模型得到声学模型;利用对应的文本标注数据或者其他数据集的文本进行训练,得到训练好的语言模型;利用训练好的语言模型和声学模型,构建自动语音识别的解码器。本发明不仅提高了模型的建模能力,还解决了训练过程中过拟合以及梯度消失的问题,从而提高了语音识别的准确性。

    一种针对卡通人物面部表情的识别方法

    公开(公告)号:CN107180225A

    公开(公告)日:2017-09-19

    申请号:CN201710257911.6

    申请日:2017-04-19

    IPC分类号: G06K9/00

    CPC分类号: G06K9/00302 G06K9/00288

    摘要: 本发明提供了一种针对卡通人物面部表情的识别方法,包括:获取卡通人物面部表情图片,进行预处理得到标准格式图片,并针对卡通人物面部表情特征,调整构建针对卡通人物面部表情识别的深度卷积神经网络,通过训练完成的深度卷积神经网络对该图片进行特征匹配,识别效果包括各个表情的识别概率,并将概率较高的结果进一步返回给用户。本发明方法可以提高对卡通人物表情识别的稳定性和效率,达到较高的识别率。