音频活动预测方法以及电子设备、相关系统和存储介质
摘要:
本申请公开了一种音频活动预测方法以及电子设备、相关系统和存储介质。该方法包括:基于对话音频中的目标语音段进行特征提取,得到目标语音段的音频特征;基于音频特征生成表征目标语音段上下文语义的第一表示,并基于音频特征生成表征目标对象的第二表示;其中,目标对象为目标语音段的说话对象;基于第一表示和第二表示,预测得到目标语音段之后的音频活动信息;其中,音频活动信息包括语音内容、各个说话对象的语音状态中至少一者,语音状态为静默、说话中任一者。上述方案,能够在复杂对话场景中,提高音频活动智能交互的流畅度。
0/0