发明公开
- 专利标题: 音频活动预测方法以及电子设备、相关系统和存储介质
-
申请号: CN202410567478.6申请日: 2024-05-08
-
公开(公告)号: CN118675546A公开(公告)日: 2024-09-20
- 发明人: 吕少卿 , 俞鸣园 , 王克彦 , 曹亚曦 , 费敏健
- 申请人: 浙江华创视讯科技有限公司
- 申请人地址: 浙江省杭州市滨江区滨安路1199号C9
- 专利权人: 浙江华创视讯科技有限公司
- 当前专利权人: 浙江华创视讯科技有限公司
- 当前专利权人地址: 浙江省杭州市滨江区滨安路1199号C9
- 代理机构: 深圳市威世博知识产权代理事务所
- 代理商 严翠霞
- 主分类号: G10L25/51
- IPC分类号: G10L25/51 ; G10L25/03 ; G10L25/18 ; G10L25/24
摘要:
本申请公开了一种音频活动预测方法以及电子设备、相关系统和存储介质。该方法包括:基于对话音频中的目标语音段进行特征提取,得到目标语音段的音频特征;基于音频特征生成表征目标语音段上下文语义的第一表示,并基于音频特征生成表征目标对象的第二表示;其中,目标对象为目标语音段的说话对象;基于第一表示和第二表示,预测得到目标语音段之后的音频活动信息;其中,音频活动信息包括语音内容、各个说话对象的语音状态中至少一者,语音状态为静默、说话中任一者。上述方案,能够在复杂对话场景中,提高音频活动智能交互的流畅度。