-
公开(公告)号:CN117809675A
公开(公告)日:2024-04-02
申请号:CN202311832273.8
申请日:2023-12-28
申请人: 北京科东电力控制系统有限责任公司 , 南京航空航天大学 , 国网福建省电力有限公司
发明人: 刘必晶 , 黄海腾 , 杨勇 , 王春安 , 吴剑 , 陈伟 , 蒋冰杉 , 杨群 , 张逸茹 , 范海威 , 李泽科 , 郭久煜 , 陈建洪 , 丁凌龙 , 陈书里 , 吴炜 , 吴克刚 , 余开杭 , 卓伟航 , 林航
IPC分类号: G10L21/0272 , G10L21/0308 , G10L25/30 , G06N3/0464 , G06N3/09
摘要: 本发明公开一种会议场景下对目标说话人的定向语音分离方法及系统,涉及语音分离领域。本发明生成的会议场景的训练数据中,每条会议语音为包括非重叠音频和重叠音频的混合语音,且满足会议录音重叠率,更符合会议场景的现实情况,使定向语音分离模型可以分离任意重叠人数音频;从每条会议语音中提取每个参与者的音频,并在参与者不说话时用空白音频填充,后续作为标签训练定向语音分离模型,使得定向语音分离模型在目标说话人存在时输出目标语音,不存在时输出空白音频;获取目标说话人音频的特征表示,作为辅助信息引导模型,使得定向语音分离模型只分离目标说话人的语音,实现在任意重叠人数的混合语音中分离出目标说话人的声音。