音频处理方法及装置

发明公开

请登陆查看更多内容

专利标题： 音频处理方法及装置
申请号： CN202310163420.0

申请日： 2023-02-22
公开(公告)号： CN118538205A

公开(公告)日： 2024-08-23
发明人: 董元菲 , 李阜阳 , 刘海珍 , 孙亚博 , 胡维政 , 杜丞
申请人： 珠海金山办公软件有限公司 , 北京金山办公软件股份有限公司 , 武汉金山办公软件有限公司
申请人地址： 广东省珠海市高新区唐家湾镇前岛环路321号金山软件园5号楼; ;
专利权人： 珠海金山办公软件有限公司,北京金山办公软件股份有限公司,武汉金山办公软件有限公司
当前专利权人： 珠海金山办公软件有限公司,北京金山办公软件股份有限公司,武汉金山办公软件有限公司
当前专利权人地址： 广东省珠海市高新区唐家湾镇前岛环路321号金山软件园5号楼; ;
代理机构： 北京华夏泰和知识产权代理有限公司
代理商 卢万腾
主分类号： G10L15/04
IPC分类号： G10L15/04 ; G10L15/26 ; G10L15/06

摘要：

本发明实施例涉及一种音频处理方法及装置，包括：获取多个音频数据片段，其中，每个所述音频数据片段中仅包含一个说话对象的语音数据；对每个所述音频数据片段分别进行特征提取，得到每个所述音频数据片段的音频片段特征；基于多个所述音频数据片段的数量确定目标参数范围；基于所述目标参数范围和所述音频片段特征对多个所述音频数据片段进行聚类，得到多个聚类类簇；基于多个所述聚类类簇确定不同说话对象与所述音频数据片段的对应关系。由此，可以智能分析出音频中说话人(即，说话对象)与说话内容(即，音频数据片段)的对应关系，提高会议记录的效率。

信息查询

中国专利公布公告 Global Dossier Espacenet

IPC分类:

G	物理
G10	乐器；声学
G10L	语音分析或合成；语音识别；语音或声音处理；语音或音频编码或解码
G10L15/00	语音识别（G10L17/00优先）
G10L15/04	.分段；字极限检测