语音数据标注方法及电子设备、存储装置

发明公开

请登陆查看更多内容

专利标题： 语音数据标注方法及电子设备、存储装置
申请号： CN202110158767.7

申请日： 2021-02-04
公开(公告)号： CN113160800A

公开(公告)日： 2021-07-23
发明人: 艾坤 , 陈志刚 , 梅林海 , 刘权 , 王智国 , 胡国平
申请人： 吉林科讯信息科技有限公司
申请人地址： 吉林省长春市朝阳区前进大街996号力旺广场B座16楼1632室
专利权人： 吉林科讯信息科技有限公司
当前专利权人： 吉林科讯信息科技有限公司
当前专利权人地址： 吉林省长春市朝阳区前进大街996号力旺广场B座16楼1632室
代理机构： 深圳市威世博知识产权代理事务所
代理商 李申
主分类号： G10L15/06
IPC分类号： G10L15/06 ; G10L15/18

摘要：

本申请公开了语音数据标注方法及电子设备、存储装置，该方法包括：获取第一语音数据中的高混淆度数据，高混淆度数据为混淆度值超过阈值的数据；提取高混淆度数据的语义特征，并获取与语义特征接近的多个近似数据；利用第一意图分类模型对近似数据进行预测，以获得近似数据的意图分类结果；将高混淆度数据所标注的意图修正为近似数据的意图分类结果中占比达到预设比值的意图，以得到修正后的第一语音数据；利用修正后的第一语音数据对第一意图分类模型进行训练，以获得第二意图分类模型；利用第二意图分类模型对第二语音数据进行预测，以获得第二语音数据对应的意图分类结果。上述方案，能够实现语音数据进行意图标注的标准化，提高标注的准确率。

公开/授权文献

CN113160800B 语音数据标注方法及电子设备、存储装置公开/授权日：2022-12-06

信息查询

中国专利公布公告 Global Dossier Espacenet

IPC分类:

G	物理
G10	乐器；声学
G10L	语音分析或合成；语音识别；语音或声音处理；语音或音频编码或解码
G10L15/00	语音识别（G10L17/00优先）
G10L15/06	.创建基准模板；训练语音识别系统，例如对说话者声音特征的适应（G10L15/14优先）