-
公开(公告)号:CN115206325A
公开(公告)日:2022-10-18
申请号:CN202210785762.1
申请日:2022-07-06
摘要: 本发明提供一种铁路调度语音的标注方法及系统,先获取待标注铁路调度语音文件,基于人工智能语音标注算法对待标注铁路调度语音文件进行预标注处理,得到预标注文件;将待标注铁路调度语音文件以语音波形形式显示在界面图像中;将预标注文件中的若干条预标注数据按照预设排序规则排列显示在界面图像中;基于语音起止时间在语音波形的相应时间段上添加半透明遮罩;基于半透明遮罩和预设校正策略对预标注文件进行校正,得到标注文件;将标注文件与待标注铁路调度语音文件作为标注结果进行输出。
-
公开(公告)号:CN115132171A
公开(公告)日:2022-09-30
申请号:CN202210778061.5
申请日:2022-06-28
申请人: 中国人民解放军战略支援部队信息工程大学 , 郑州信大先进技术研究院
摘要: 本发明提供一种基于任务的焦点损失提升多语言元学习语音识别方法。该方法基于任务的焦点损失改进多语言元学习对任务不平衡的忽略,基于每个任务的查询损失引入了难任务调节器,引导模型更加关注难任务,并且为了充分利用难任务的数据,同时使用支持集梯度与查询集梯度来更新元参数。此外,本发明还在样本层面解释了难任务调节器的意义,经过公式推导,发现它与任务内样本的预测概率乘积成反相关。通过使用本发明方法,可以使模型学习到的初始化更加均衡,更加充分地利用了所有源语言的知识,从而能够有效的对目标语言进行泛化。
-
公开(公告)号:CN115440197A
公开(公告)日:2022-12-06
申请号:CN202211053150.X
申请日:2022-08-31
申请人: 中国人民解放军战略支援部队信息工程大学 , 郑州信大先进技术研究院
摘要: 本发明属于语音识别技术领域,特别涉及一种基于领域分类和热词前缀树集束搜索的语音识别方法及系统,利用已知领域中的热词列表构建对应领域类型的热词前缀树,并训练相应的热词语言模型;针对目标语音数据,利用已训练的端到端模型进行一次解码,并利用已训练的领域分类模型来获取目标语音数据所属领域类型;利用端到端模型对目标语音数据进行二次解码,使用集束搜索算法并利用已训练的热词语言模型来输出目标语音数据对应的文本,其中,集束搜索算法每个时间步搜索中,结合目标语音数据所属领域类型的热词前缀树增强热词概率。本发明利用领域热词前缀树对语音数据中热词进行适当增强,提升语音识别效果,便于实际场景应用。
-
公开(公告)号:CN112686058B
公开(公告)日:2021-10-29
申请号:CN202011557480.3
申请日:2020-12-24
申请人: 中国人民解放军战略支援部队信息工程大学 , 郑州信大先进技术研究院
摘要: 本发明属于语音翻译技术领域,涉及一种BERT嵌入语音翻译模型训练方法、系统及语音翻译方法和设备,训练方法包含:收集模型训练数据;利用训练数据中的源语言预训练BERT模型,并将预训练后的BERT模型作为机器翻译模型编码层,并利用成对的源语言和目标语言文本对机器翻译模型进行训练,通过设置机器翻译模型中解码层层数来获取多个机器翻译模型;利用源语言成对的语音翻译数据训练语音识别模型;将训练后的语音识别模型编码层作为语音翻译模型编码层初始化参数,并采用熵加权方式对多个机器翻译模型输出进行加权来训练语音翻译模型,结合模型损失函数完成语音翻译模型训练。本发明提升语音翻译模型的识别性能,进而提高语音翻译效率和质量。
-
公开(公告)号:CN114464198A
公开(公告)日:2022-05-10
申请号:CN202111437237.2
申请日:2021-11-30
申请人: 中国人民解放军战略支援部队信息工程大学 , 郑州信大先进技术研究院
摘要: 本发明属于人工智能人声分离技术领域,特别涉及一种可视化人声分离系统、方法以及装置,该方法包括打开可视化人声分离系统,把要分离的音/视频文件导入系统中;把音/视频转换成和人声分离算法相匹配的音频格式;把要处理的音频文件进行逻辑切分,按时间先后顺序进行分句,最终形成每句话包含说话人名称、开始时间和结束时间的json文件;把分离后的结果在界面上进行展示,音频文件以波形形式展示在上半部分,解析后的json文件以列表形式展示在下半部分;在结果展示界面进行每句话的播放和调整,实现精准人声分离;把分离好的人声分句,根据需求进行选中导出。本发明在人工智能人声分离算法基础上,进行界面可视化的手动调整,达到精准人声分离效果。
-
公开(公告)号:CN112686058A
公开(公告)日:2021-04-20
申请号:CN202011557480.3
申请日:2020-12-24
申请人: 中国人民解放军战略支援部队信息工程大学 , 郑州信大先进技术研究院
摘要: 本发明属于语音翻译技术领域,涉及一种BERT嵌入语音翻译模型训练方法、系统及语音翻译方法和设备,训练方法包含:收集模型训练数据;利用训练数据中的源语言预训练BERT模型,并将预训练后的BERT模型作为机器翻译模型编码层,并利用成对的源语言和目标语言文本对机器翻译模型进行训练,通过设置机器翻译模型中解码层层数来获取多个机器翻译模型;利用源语言成对的语音翻译数据训练语音识别模型;将训练后的语音识别模型编码层作为语音翻译模型编码层初始化参数,并采用熵加权方式对多个机器翻译模型输出进行加权来训练语音翻译模型,结合模型损失函数完成语音翻译模型训练。本发明提升语音翻译模型的识别性能,进而提高语音翻译效率和质量。
-
公开(公告)号:CN112686027A
公开(公告)日:2021-04-20
申请号:CN202011550194.4
申请日:2020-12-24
申请人: 中国人民解放军战略支援部队信息工程大学 , 郑州信大先进技术研究院
IPC分类号: G06F40/237 , G06F40/58 , G06N3/04
摘要: 本发明属于人工智能翻译技术领域,涉及一种基于周期函数的机器翻译输出修正方法及系统,方法包含:获取源语言和目标语言两者对应的平行语料,对词汇进行编码得到字典表和对应的索引值;对源语言语句和位置信息进行编码,通过编码器神经网络获取信息编码,并利用周期函数对信息编码特征进行提取,获取编码器神经网络最终输出;对目标语言语句和位置信息进行编码,将编码结果和编码器神经网络最终输出作为解码器神经网络输入,利用周期函数对解码器神经网络输出特征进行提取来获取解码器神经网络最终输出;将解码器神经网络最终输出经过特征映射获取字典表中索引编号,最终输出为索引编号对应词汇。本发明能够有效提升机器翻译质量和用户体验度。
-
公开(公告)号:CN115132171B
公开(公告)日:2024-10-29
申请号:CN202210778061.5
申请日:2022-06-28
申请人: 中国人民解放军战略支援部队信息工程大学 , 郑州信大先进技术研究院
IPC分类号: G10L15/00 , G10L15/28 , G10L15/02 , G06N3/0464 , G06N3/08
摘要: 本发明提供一种基于任务的焦点损失提升多语言元学习语音识别方法。该方法基于任务的焦点损失改进多语言元学习对任务不平衡的忽略,基于每个任务的查询损失引入了难任务调节器,引导模型更加关注难任务,并且为了充分利用难任务的数据,同时使用支持集梯度与查询集梯度来更新元参数。此外,本发明还在样本层面解释了难任务调节器的意义,经过公式推导,发现它与任务内样本的预测概率乘积成反相关。通过使用本发明方法,可以使模型学习到的初始化更加均衡,更加充分地利用了所有源语言的知识,从而能够有效的对目标语言进行泛化。
-
公开(公告)号:CN112686027B
公开(公告)日:2023-06-09
申请号:CN202011550194.4
申请日:2020-12-24
申请人: 中国人民解放军战略支援部队信息工程大学 , 郑州信大先进技术研究院
IPC分类号: G06F40/237 , G06F40/58 , G06N3/0455
摘要: 本发明属于人工智能翻译技术领域,涉及一种基于周期函数的机器翻译输出修正方法及系统,方法包含:获取源语言和目标语言两者对应的平行语料,对词汇进行编码得到字典表和对应的索引值;对源语言语句和位置信息进行编码,通过编码器神经网络获取信息编码,并利用周期函数对信息编码特征进行提取,获取编码器神经网络最终输出;对目标语言语句和位置信息进行编码,将编码结果和编码器神经网络最终输出作为解码器神经网络输入,利用周期函数对解码器神经网络输出特征进行提取来获取解码器神经网络最终输出;将解码器神经网络最终输出经过特征映射获取字典表中索引编号,最终输出为索引编号对应词汇。本发明能够有效提升机器翻译质量和用户体验度。
-
公开(公告)号:CN114464198B
公开(公告)日:2023-06-06
申请号:CN202111437237.2
申请日:2021-11-30
申请人: 中国人民解放军战略支援部队信息工程大学 , 郑州信大先进技术研究院
摘要: 本发明属于人工智能人声分离技术领域,特别涉及一种可视化人声分离系统、方法以及装置,该方法包括打开可视化人声分离系统,把要分离的音/视频文件导入系统中;把音/视频转换成和人声分离算法相匹配的音频格式;把要处理的音频文件进行逻辑切分,按时间先后顺序进行分句,最终形成每句话包含说话人名称、开始时间和结束时间的json文件;把分离后的结果在界面上进行展示,音频文件以波形形式展示在上半部分,解析后的json文件以列表形式展示在下半部分;在结果展示界面进行每句话的播放和调整,实现精准人声分离;把分离好的人声分句,根据需求进行选中导出。本发明在人工智能人声分离算法基础上,进行界面可视化的手动调整,达到精准人声分离效果。
-
-
-
-
-
-
-
-
-