声学模型训练方法、语音识别方法、装置、设备及介质

    公开(公告)号:CN107680582B

    公开(公告)日:2021-03-26

    申请号:CN201710627480.8

    申请日:2017-07-28

    IPC分类号: G10L15/02 G10L15/14 G10L15/16

    摘要: 本发明公开了一种声学模型训练方法、语音识别方法、装置、设备及介质。该声学模型训练方法包括:对训练语音信号进行特征提取,获取音频特征序列;采用音素混合高斯模型‑隐马尔科夫模型对所述音频特征序列进行训练,获取音素特征序列;采用深度神经网络模型‑隐马尔科夫模型‑序列训练模型对所述音素特征序列进行训练,获取目标声学模型。该声学模型训练方法可有效节省声学模型训练所需时间,提高训练效率,并保证识别效率。

    基于语音的口型动画合成装置、方法及可读存储介质

    公开(公告)号:CN108763190B

    公开(公告)日:2019-04-02

    申请号:CN201810327672.1

    申请日:2018-04-12

    发明人: 梁浩 王健宗 肖京

    摘要: 本发明公开了一种基于语音的口型动画合成装置,包括存储器和处理器,存储器上存储有可在处理器上运行的口型动画合成程序,该程序被处理器执行时实现如下步骤:获取目标文本数据,根据发音词典获取目标文本数据中的音素特征;将音素特征输入到预先训练好的深度神经网络模型中,输出声学特征,将声学特征输入到语音合成器中输出语音数据;根据语音数据、预先训练好的张量模型以及说话人标识信息,获取口型数据;根据口型数据生成与语音数据对应的口型动画。发明还提出一种基于语音的口型动画合成方法以及一种计算机可读存储介质。本发明解决了现有技术中无法展示与合成的语音数据匹配的、并具有真实感的口型动画的技术问题。

    基于语音的口型动画合成装置、方法及可读存储介质

    公开(公告)号:CN108763190A

    公开(公告)日:2018-11-06

    申请号:CN201810327672.1

    申请日:2018-04-12

    发明人: 梁浩 王健宗 肖京

    摘要: 本发明公开了一种基于语音的口型动画合成装置,包括存储器和处理器,存储器上存储有可在处理器上运行的口型动画合成程序,该程序被处理器执行时实现如下步骤:获取目标文本数据,根据发音词典获取目标文本数据中的音素特征;将音素特征输入到预先训练好的深度神经网络模型中,输出声学特征,将声学特征输入到语音合成器中输出语音数据;根据语音数据、预先训练好的张量模型以及说话人标识信息,获取口型数据;根据口型数据生成与语音数据对应的口型动画。发明还提出一种基于语音的口型动画合成方法以及一种计算机可读存储介质。本发明解决了现有技术中无法展示与合成的语音数据匹配的、并具有真实感的口型动画的技术问题。

    利用语音进行疾病预测的方法及应用服务器

    公开(公告)号:CN108053841A

    公开(公告)日:2018-05-18

    申请号:CN201710995691.7

    申请日:2017-10-23

    发明人: 梁浩 王健宗 肖京

    摘要: 本发明公开了一种利用语音进行疾病预测的方法,所述方法包括:利用训练数据训练深度神经网络模型,所述训练数据具有特定的语音类别,所述深度神经网络模型具有输入层和输出层;获取实时的患者语音数据;对所述患者语音数据进行数据处理;将处理后的所述患者语音数据送入训练后的所述深度神经网络模型的输入层;获取所述深度神经网络模型的输出层的输出状态;根据获取的所述输出状态判断所述患者语音数据所属的类别。本发明还提供一种应用服务器。本发明提供的利用语音进行疾病预测的方法及应用服务器,可以通过患者的语音快速的对患者进行初步的诊断,进而为后续医生的正式诊断提供一定的数据支撑和参考,进而大大方便了医生和患者。

    语音识别方法、装置、计算机设备及存储介质

    公开(公告)号:CN107331384B

    公开(公告)日:2018-05-04

    申请号:CN201710438772.7

    申请日:2017-06-12

    IPC分类号: G10L15/02 G10L15/14

    摘要: 本发明提出了一种语音识别方法,该方法包括:获取待识别的语音数据;提取语音数据中的Filter Bank特征和MFCC特征;将MFCC特征作为GMM‑HMM模型的输入数据,获取第一似然概率矩阵;将Filter Bank特征作为二维LSTM模型的输入特征,获取后验概率矩阵;将后验概率矩阵和第一似然概率矩阵作为HMM模型的输入数据,获取第二似然概率矩阵,根据第二似然概率矩阵在音素解码网络中获取对应的目标词序列。该方法通过将混合高斯模型和深度学习模型结合,且采用创新的二维LSTM模型作为声学模型,提高了语音识别的准确度。此外,还提出了一种语音识别装置、计算机设备及存储介质。

    图片品质的检测方法及装置

    公开(公告)号:CN106372651B

    公开(公告)日:2018-03-06

    申请号:CN201610704799.1

    申请日:2016-08-22

    IPC分类号: G06K9/62 G06N3/02

    CPC分类号: G06K9/62 G06N3/02

    摘要: 本发明涉及一种图片品质的检测方法及装置,所述图片品质的检测方法包括:车险理赔服务器在接收到用户终端上传的理赔照片后,采用预先训练生成的深度卷积神经网络模型对接收到的理赔照片进行清晰度识别,以确定所述理赔照片的清晰度等级;若所述理赔照片的清晰度等级低于预设清晰度等级,则发送第一提示信息至所述用户终端,以提醒用户重新上传理赔照片。本发明通过预先训练生成的深度卷积神经网络模型对理赔照片进行清晰度识别,保证用户所上传的理赔照片均是能够准确地分析得出车险现场信息的理赔照片,这样,有助于提高自助理赔系统的工作效率,提高用户体验。

    语音识别方法、装置、计算机设备及存储介质

    公开(公告)号:CN107633842A

    公开(公告)日:2018-01-26

    申请号:CN201710445076.9

    申请日:2017-06-12

    IPC分类号: G10L15/02 G10L15/14

    摘要: 本发明提出了一种语音识别方法,该方法包括:获取待识别的语音数据;提取语音数据中的Filter Bank特征和MFCC特征;将MFCC特征作为GMM-HMM模型的输入数据,获取第一似然概率矩阵;将Filter Bank特征作为具有连接单元LSTM模型的输入特征,获取后验概率矩阵;将后验概率矩阵和第一似然概率矩阵作为HMM模型的输入数据,获取第二似然概率矩阵,根据第二似然概率矩阵在音素解码网络中获取对应的目标词序列。该方法通过将混合高斯模型和深度学习模型结合,且采用创新的具有连接单元LSTM模型作为声学模型,提高了语音识别的准确度。此外,还提出了一种语音识别装置、计算机设备及存储介质。