基于时频掩蔽值估计的波束成形方法及系统

    公开(公告)号:CN112735460B

    公开(公告)日:2021-10-29

    申请号:CN202011557418.4

    申请日:2020-12-24

    摘要: 本发明属于语音增强技术领域,特别涉及一种基于时频掩蔽值估计的波束成形方法及系统,方法包含:获取多通道语音序列,通过傅里叶变换提取幅度谱特征和空域特征;对幅度谱特征通过对数变换得到多通道语音频谱特征序列,送入预先训练优化的神经网络模型获取复值时频掩蔽值;将复值时频掩蔽值转换为语音存在概率,利用概率模型获取时频掩蔽值;由时频掩蔽值及多通道语音特征序列计算语音信号协方差矩阵,对协方差矩阵进行特征值分解获取波束成形滤波器系数;结合波束成形滤波器系数,利用波束成形滤波器对多通道语音序列语音特征滤波处理,得到增强语音信号。本发明集成神经网络和空域聚类进行时频掩蔽值估计,提升波束形成和语音识别的性能。

    一种可视化人声分离系统、方法以及装置

    公开(公告)号:CN114464198A

    公开(公告)日:2022-05-10

    申请号:CN202111437237.2

    申请日:2021-11-30

    摘要: 本发明属于人工智能人声分离技术领域,特别涉及一种可视化人声分离系统、方法以及装置,该方法包括打开可视化人声分离系统,把要分离的音/视频文件导入系统中;把音/视频转换成和人声分离算法相匹配的音频格式;把要处理的音频文件进行逻辑切分,按时间先后顺序进行分句,最终形成每句话包含说话人名称、开始时间和结束时间的json文件;把分离后的结果在界面上进行展示,音频文件以波形形式展示在上半部分,解析后的json文件以列表形式展示在下半部分;在结果展示界面进行每句话的播放和调整,实现精准人声分离;把分离好的人声分句,根据需求进行选中导出。本发明在人工智能人声分离算法基础上,进行界面可视化的手动调整,达到精准人声分离效果。

    一种可视化人声分离系统、方法以及装置

    公开(公告)号:CN114464198B

    公开(公告)日:2023-06-06

    申请号:CN202111437237.2

    申请日:2021-11-30

    摘要: 本发明属于人工智能人声分离技术领域,特别涉及一种可视化人声分离系统、方法以及装置,该方法包括打开可视化人声分离系统,把要分离的音/视频文件导入系统中;把音/视频转换成和人声分离算法相匹配的音频格式;把要处理的音频文件进行逻辑切分,按时间先后顺序进行分句,最终形成每句话包含说话人名称、开始时间和结束时间的json文件;把分离后的结果在界面上进行展示,音频文件以波形形式展示在上半部分,解析后的json文件以列表形式展示在下半部分;在结果展示界面进行每句话的播放和调整,实现精准人声分离;把分离好的人声分句,根据需求进行选中导出。本发明在人工智能人声分离算法基础上,进行界面可视化的手动调整,达到精准人声分离效果。

    基于时频掩蔽值估计的波束成形方法及系统

    公开(公告)号:CN112735460A

    公开(公告)日:2021-04-30

    申请号:CN202011557418.4

    申请日:2020-12-24

    摘要: 本发明属于语音增强技术领域,特别涉及一种基于时频掩蔽值估计的波束成形方法及系统,方法包含:获取多通道语音序列,通过傅里叶变换提取幅度谱特征和空域特征;对幅度谱特征通过对数变换得到多通道语音频谱特征序列,送入预先训练优化的神经网络模型获取复值时频掩蔽值;将复值时频掩蔽值转换为语音存在概率,利用概率模型获取时频掩蔽值;由时频掩蔽值及多通道语音特征序列计算语音信号协方差矩阵,对协方差矩阵进行特征值分解获取波束成形滤波器系数;结合波束成形滤波器系数,利用波束成形滤波器对多通道语音序列语音特征滤波处理,得到增强语音信号。本发明集成神经网络和空域聚类进行时频掩蔽值估计,提升波束形成和语音识别的性能。

    基于多任务学习和特征自蒸馏的半监督机器翻译方法

    公开(公告)号:CN117371460A

    公开(公告)日:2024-01-09

    申请号:CN202311413103.6

    申请日:2023-10-27

    摘要: 本发明属于自然语言处理技术领域,公开一种基于多任务学习和特征自蒸馏的半监督机器翻译方法,包括:步骤1:输入源语言语句,源语言语句类型包括源端单语数据,目标端单语数据和有标记双语数据;步骤2:根据输入的不同,分别执行步骤3、步骤4或步骤5;步骤3:若输入为源端单语数据,执行编码器自蒸馏任务,得到编码后特征并对模型进行更新;步骤4:若输入为目标端单语数据,执行解码器自蒸馏任务,得到最终的机器翻译结果并对模型进行更新;步骤5:若输入为有标记双语数据,执行监督机器翻译任务,得到最终的机器翻译结果并对模型进行更新。本发明所提方法可以有效挖掘单语数据中的有用知识,提升模型性能,并与其他方法显示出互补效果。