-
公开(公告)号:CN112735460B
公开(公告)日:2021-10-29
申请号:CN202011557418.4
申请日:2020-12-24
申请人: 中国人民解放军战略支援部队信息工程大学 , 郑州信大先进技术研究院
IPC分类号: G10L21/0216 , G10L25/30 , G10L15/20
摘要: 本发明属于语音增强技术领域,特别涉及一种基于时频掩蔽值估计的波束成形方法及系统,方法包含:获取多通道语音序列,通过傅里叶变换提取幅度谱特征和空域特征;对幅度谱特征通过对数变换得到多通道语音频谱特征序列,送入预先训练优化的神经网络模型获取复值时频掩蔽值;将复值时频掩蔽值转换为语音存在概率,利用概率模型获取时频掩蔽值;由时频掩蔽值及多通道语音特征序列计算语音信号协方差矩阵,对协方差矩阵进行特征值分解获取波束成形滤波器系数;结合波束成形滤波器系数,利用波束成形滤波器对多通道语音序列语音特征滤波处理,得到增强语音信号。本发明集成神经网络和空域聚类进行时频掩蔽值估计,提升波束形成和语音识别的性能。
-
公开(公告)号:CN112685594B
公开(公告)日:2022-10-04
申请号:CN202011550159.2
申请日:2020-12-24
申请人: 中国人民解放军战略支援部队信息工程大学 , 郑州信大先进技术研究院
IPC分类号: G06F16/632 , G06F16/683 , G06F40/284 , G10L25/30
摘要: 本发明属于语音检索技术领域,特别涉及一种基于注意力的弱监督语音检索方法及系统,方法包含:提取文本关键词并转换为关键词特征向量,并对音频数据进行特征提取获取音频特征向量;使用注意力机制将关键词特征向量和音频特征向量进行融合,获取语音检索特征向量;将语音检索特征向量送入已训练优化的关键词识别模块识别,以检测文本关键词是否出现在语音数据中。本发明通过使用注意力机制来获得融合文本特征向量和音频特征向量的语音检索特征向量,使用弱监督标注数据即可训练优化识别模型,提升检索效率和准确性。
-
公开(公告)号:CN114464198A
公开(公告)日:2022-05-10
申请号:CN202111437237.2
申请日:2021-11-30
申请人: 中国人民解放军战略支援部队信息工程大学 , 郑州信大先进技术研究院
摘要: 本发明属于人工智能人声分离技术领域,特别涉及一种可视化人声分离系统、方法以及装置,该方法包括打开可视化人声分离系统,把要分离的音/视频文件导入系统中;把音/视频转换成和人声分离算法相匹配的音频格式;把要处理的音频文件进行逻辑切分,按时间先后顺序进行分句,最终形成每句话包含说话人名称、开始时间和结束时间的json文件;把分离后的结果在界面上进行展示,音频文件以波形形式展示在上半部分,解析后的json文件以列表形式展示在下半部分;在结果展示界面进行每句话的播放和调整,实现精准人声分离;把分离好的人声分句,根据需求进行选中导出。本发明在人工智能人声分离算法基础上,进行界面可视化的手动调整,达到精准人声分离效果。
-
公开(公告)号:CN112685594A
公开(公告)日:2021-04-20
申请号:CN202011550159.2
申请日:2020-12-24
申请人: 中国人民解放军战略支援部队信息工程大学 , 郑州信大先进技术研究院
IPC分类号: G06F16/632 , G06F16/683 , G06F40/284 , G10L25/30
摘要: 本发明属于语音检索技术领域,特别涉及一种基于注意力的弱监督语音检索方法及系统,方法包含:提取文本关键词并转换为关键词特征向量,并对音频数据进行特征提取获取音频特征向量;使用注意力机制将关键词特征向量和音频特征向量进行融合,获取语音检索特征向量;将语音检索特征向量送入已训练优化的关键词识别模块识别,以检测文本关键词是否出现在语音数据中。本发明通过使用注意力机制来获得融合文本特征向量和音频特征向量的语音检索特征向量,使用弱监督标注数据即可训练优化识别模型,提升检索效率和准确性。
-
公开(公告)号:CN114464198B
公开(公告)日:2023-06-06
申请号:CN202111437237.2
申请日:2021-11-30
申请人: 中国人民解放军战略支援部队信息工程大学 , 郑州信大先进技术研究院
摘要: 本发明属于人工智能人声分离技术领域,特别涉及一种可视化人声分离系统、方法以及装置,该方法包括打开可视化人声分离系统,把要分离的音/视频文件导入系统中;把音/视频转换成和人声分离算法相匹配的音频格式;把要处理的音频文件进行逻辑切分,按时间先后顺序进行分句,最终形成每句话包含说话人名称、开始时间和结束时间的json文件;把分离后的结果在界面上进行展示,音频文件以波形形式展示在上半部分,解析后的json文件以列表形式展示在下半部分;在结果展示界面进行每句话的播放和调整,实现精准人声分离;把分离好的人声分句,根据需求进行选中导出。本发明在人工智能人声分离算法基础上,进行界面可视化的手动调整,达到精准人声分离效果。
-
公开(公告)号:CN112735460A
公开(公告)日:2021-04-30
申请号:CN202011557418.4
申请日:2020-12-24
申请人: 中国人民解放军战略支援部队信息工程大学 , 郑州信大先进技术研究院
IPC分类号: G10L21/0216 , G10L25/30 , G10L15/20
摘要: 本发明属于语音增强技术领域,特别涉及一种基于时频掩蔽值估计的波束成形方法及系统,方法包含:获取多通道语音序列,通过傅里叶变换提取幅度谱特征和空域特征;对幅度谱特征通过对数变换得到多通道语音频谱特征序列,送入预先训练优化的神经网络模型获取复值时频掩蔽值;将复值时频掩蔽值转换为语音存在概率,利用概率模型获取时频掩蔽值;由时频掩蔽值及多通道语音特征序列计算语音信号协方差矩阵,对协方差矩阵进行特征值分解获取波束成形滤波器系数;结合波束成形滤波器系数,利用波束成形滤波器对多通道语音序列语音特征滤波处理,得到增强语音信号。本发明集成神经网络和空域聚类进行时频掩蔽值估计,提升波束形成和语音识别的性能。
-
公开(公告)号:CN117371460A
公开(公告)日:2024-01-09
申请号:CN202311413103.6
申请日:2023-10-27
申请人: 中国人民解放军战略支援部队信息工程大学
IPC分类号: G06F40/58 , G06N3/0895 , G06N3/0455 , G06N3/096
摘要: 本发明属于自然语言处理技术领域,公开一种基于多任务学习和特征自蒸馏的半监督机器翻译方法,包括:步骤1:输入源语言语句,源语言语句类型包括源端单语数据,目标端单语数据和有标记双语数据;步骤2:根据输入的不同,分别执行步骤3、步骤4或步骤5;步骤3:若输入为源端单语数据,执行编码器自蒸馏任务,得到编码后特征并对模型进行更新;步骤4:若输入为目标端单语数据,执行解码器自蒸馏任务,得到最终的机器翻译结果并对模型进行更新;步骤5:若输入为有标记双语数据,执行监督机器翻译任务,得到最终的机器翻译结果并对模型进行更新。本发明所提方法可以有效挖掘单语数据中的有用知识,提升模型性能,并与其他方法显示出互补效果。
-
-
-
-
-
-