基于领域分类和热词前缀树集束搜索的语音识别方法及系统

    公开(公告)号:CN115440197A

    公开(公告)日:2022-12-06

    申请号:CN202211053150.X

    申请日:2022-08-31

    IPC分类号: G10L15/08 G10L15/26 G10L15/06

    摘要: 本发明属于语音识别技术领域,特别涉及一种基于领域分类和热词前缀树集束搜索的语音识别方法及系统,利用已知领域中的热词列表构建对应领域类型的热词前缀树,并训练相应的热词语言模型;针对目标语音数据,利用已训练的端到端模型进行一次解码,并利用已训练的领域分类模型来获取目标语音数据所属领域类型;利用端到端模型对目标语音数据进行二次解码,使用集束搜索算法并利用已训练的热词语言模型来输出目标语音数据对应的文本,其中,集束搜索算法每个时间步搜索中,结合目标语音数据所属领域类型的热词前缀树增强热词概率。本发明利用领域热词前缀树对语音数据中热词进行适当增强,提升语音识别效果,便于实际场景应用。

    BERT嵌入语音翻译模型训练方法、系统及语音翻译方法和设备

    公开(公告)号:CN112686058B

    公开(公告)日:2021-10-29

    申请号:CN202011557480.3

    申请日:2020-12-24

    IPC分类号: G06F40/58 G10L15/06 G10L15/22

    摘要: 本发明属于语音翻译技术领域,涉及一种BERT嵌入语音翻译模型训练方法、系统及语音翻译方法和设备,训练方法包含:收集模型训练数据;利用训练数据中的源语言预训练BERT模型,并将预训练后的BERT模型作为机器翻译模型编码层,并利用成对的源语言和目标语言文本对机器翻译模型进行训练,通过设置机器翻译模型中解码层层数来获取多个机器翻译模型;利用源语言成对的语音翻译数据训练语音识别模型;将训练后的语音识别模型编码层作为语音翻译模型编码层初始化参数,并采用熵加权方式对多个机器翻译模型输出进行加权来训练语音翻译模型,结合模型损失函数完成语音翻译模型训练。本发明提升语音翻译模型的识别性能,进而提高语音翻译效率和质量。

    一种可视化人声分离系统、方法以及装置

    公开(公告)号:CN114464198A

    公开(公告)日:2022-05-10

    申请号:CN202111437237.2

    申请日:2021-11-30

    摘要: 本发明属于人工智能人声分离技术领域,特别涉及一种可视化人声分离系统、方法以及装置,该方法包括打开可视化人声分离系统,把要分离的音/视频文件导入系统中;把音/视频转换成和人声分离算法相匹配的音频格式;把要处理的音频文件进行逻辑切分,按时间先后顺序进行分句,最终形成每句话包含说话人名称、开始时间和结束时间的json文件;把分离后的结果在界面上进行展示,音频文件以波形形式展示在上半部分,解析后的json文件以列表形式展示在下半部分;在结果展示界面进行每句话的播放和调整,实现精准人声分离;把分离好的人声分句,根据需求进行选中导出。本发明在人工智能人声分离算法基础上,进行界面可视化的手动调整,达到精准人声分离效果。

    BERT嵌入语音翻译模型训练方法、系统及语音翻译方法和设备

    公开(公告)号:CN112686058A

    公开(公告)日:2021-04-20

    申请号:CN202011557480.3

    申请日:2020-12-24

    IPC分类号: G06F40/58 G10L15/06 G10L15/22

    摘要: 本发明属于语音翻译技术领域,涉及一种BERT嵌入语音翻译模型训练方法、系统及语音翻译方法和设备,训练方法包含:收集模型训练数据;利用训练数据中的源语言预训练BERT模型,并将预训练后的BERT模型作为机器翻译模型编码层,并利用成对的源语言和目标语言文本对机器翻译模型进行训练,通过设置机器翻译模型中解码层层数来获取多个机器翻译模型;利用源语言成对的语音翻译数据训练语音识别模型;将训练后的语音识别模型编码层作为语音翻译模型编码层初始化参数,并采用熵加权方式对多个机器翻译模型输出进行加权来训练语音翻译模型,结合模型损失函数完成语音翻译模型训练。本发明提升语音翻译模型的识别性能,进而提高语音翻译效率和质量。

    基于周期函数的机器翻译输出修正方法及系统

    公开(公告)号:CN112686027A

    公开(公告)日:2021-04-20

    申请号:CN202011550194.4

    申请日:2020-12-24

    IPC分类号: G06F40/237 G06F40/58 G06N3/04

    摘要: 本发明属于人工智能翻译技术领域,涉及一种基于周期函数的机器翻译输出修正方法及系统,方法包含:获取源语言和目标语言两者对应的平行语料,对词汇进行编码得到字典表和对应的索引值;对源语言语句和位置信息进行编码,通过编码器神经网络获取信息编码,并利用周期函数对信息编码特征进行提取,获取编码器神经网络最终输出;对目标语言语句和位置信息进行编码,将编码结果和编码器神经网络最终输出作为解码器神经网络输入,利用周期函数对解码器神经网络输出特征进行提取来获取解码器神经网络最终输出;将解码器神经网络最终输出经过特征映射获取字典表中索引编号,最终输出为索引编号对应词汇。本发明能够有效提升机器翻译质量和用户体验度。

    基于周期函数的机器翻译输出修正方法及系统

    公开(公告)号:CN112686027B

    公开(公告)日:2023-06-09

    申请号:CN202011550194.4

    申请日:2020-12-24

    摘要: 本发明属于人工智能翻译技术领域,涉及一种基于周期函数的机器翻译输出修正方法及系统,方法包含:获取源语言和目标语言两者对应的平行语料,对词汇进行编码得到字典表和对应的索引值;对源语言语句和位置信息进行编码,通过编码器神经网络获取信息编码,并利用周期函数对信息编码特征进行提取,获取编码器神经网络最终输出;对目标语言语句和位置信息进行编码,将编码结果和编码器神经网络最终输出作为解码器神经网络输入,利用周期函数对解码器神经网络输出特征进行提取来获取解码器神经网络最终输出;将解码器神经网络最终输出经过特征映射获取字典表中索引编号,最终输出为索引编号对应词汇。本发明能够有效提升机器翻译质量和用户体验度。

    一种可视化人声分离系统、方法以及装置

    公开(公告)号:CN114464198B

    公开(公告)日:2023-06-06

    申请号:CN202111437237.2

    申请日:2021-11-30

    摘要: 本发明属于人工智能人声分离技术领域,特别涉及一种可视化人声分离系统、方法以及装置,该方法包括打开可视化人声分离系统,把要分离的音/视频文件导入系统中;把音/视频转换成和人声分离算法相匹配的音频格式;把要处理的音频文件进行逻辑切分,按时间先后顺序进行分句,最终形成每句话包含说话人名称、开始时间和结束时间的json文件;把分离后的结果在界面上进行展示,音频文件以波形形式展示在上半部分,解析后的json文件以列表形式展示在下半部分;在结果展示界面进行每句话的播放和调整,实现精准人声分离;把分离好的人声分句,根据需求进行选中导出。本发明在人工智能人声分离算法基础上,进行界面可视化的手动调整,达到精准人声分离效果。