音频活动预测方法以及电子设备、相关系统和存储介质

发明公开

CN118675546A 音频活动预测方法以及电子设备、相关系统和存储介质审中-实审

请登陆查看更多内容

专利标题： 音频活动预测方法以及电子设备、相关系统和存储介质
申请号： CN202410567478.6

申请日： 2024-05-08
公开(公告)号： CN118675546A

公开(公告)日： 2024-09-20
发明人: 吕少卿 , 俞鸣园 , 王克彦 , 曹亚曦 , 费敏健
申请人： 浙江华创视讯科技有限公司
申请人地址： 浙江省杭州市滨江区滨安路1199号C9
专利权人： 浙江华创视讯科技有限公司
当前专利权人： 浙江华创视讯科技有限公司
当前专利权人地址： 浙江省杭州市滨江区滨安路1199号C9
代理机构： 深圳市威世博知识产权代理事务所
代理商 严翠霞
主分类号： G10L25/51
IPC分类号： G10L25/51 ; G10L25/03 ; G10L25/18 ; G10L25/24

摘要：

本申请公开了一种音频活动预测方法以及电子设备、相关系统和存储介质。该方法包括：基于对话音频中的目标语音段进行特征提取，得到目标语音段的音频特征；基于音频特征生成表征目标语音段上下文语义的第一表示，并基于音频特征生成表征目标对象的第二表示；其中，目标对象为目标语音段的说话对象；基于第一表示和第二表示，预测得到目标语音段之后的音频活动信息；其中，音频活动信息包括语音内容、各个说话对象的语音状态中至少一者，语音状态为静默、说话中任一者。上述方案，能够在复杂对话场景中，提高音频活动智能交互的流畅度。

信息查询

中国专利公布公告 Global Dossier Espacenet

IPC分类:

G	物理
G10	乐器；声学
G10L	语音分析或合成；语音识别；语音或声音处理；语音或音频编码或解码
G10L25/00	不限于组G10L 15/00-G10L 21/00的语言或者声音分析技术(当利用语音检测器来感知一些信号特殊特征的基于半导体的静噪放大器，如无信号时的感知入H03G3/34)
G10L25/48	.专门适用于特定用途
G10L25/51	..比较或判别