发明公开
- 专利标题: 语音数据标注方法及电子设备、存储装置
-
申请号: CN202110158767.7申请日: 2021-02-04
-
公开(公告)号: CN113160800A公开(公告)日: 2021-07-23
- 发明人: 艾坤 , 陈志刚 , 梅林海 , 刘权 , 王智国 , 胡国平
- 申请人: 吉林科讯信息科技有限公司
- 申请人地址: 吉林省长春市朝阳区前进大街996号力旺广场B座16楼1632室
- 专利权人: 吉林科讯信息科技有限公司
- 当前专利权人: 吉林科讯信息科技有限公司
- 当前专利权人地址: 吉林省长春市朝阳区前进大街996号力旺广场B座16楼1632室
- 代理机构: 深圳市威世博知识产权代理事务所
- 代理商 李申
- 主分类号: G10L15/06
- IPC分类号: G10L15/06 ; G10L15/18
摘要:
本申请公开了语音数据标注方法及电子设备、存储装置,该方法包括:获取第一语音数据中的高混淆度数据,高混淆度数据为混淆度值超过阈值的数据;提取高混淆度数据的语义特征,并获取与语义特征接近的多个近似数据;利用第一意图分类模型对近似数据进行预测,以获得近似数据的意图分类结果;将高混淆度数据所标注的意图修正为近似数据的意图分类结果中占比达到预设比值的意图,以得到修正后的第一语音数据;利用修正后的第一语音数据对第一意图分类模型进行训练,以获得第二意图分类模型;利用第二意图分类模型对第二语音数据进行预测,以获得第二语音数据对应的意图分类结果。上述方案,能够实现语音数据进行意图标注的标准化,提高标注的准确率。
公开/授权文献
- CN113160800B 语音数据标注方法及电子设备、存储装置 公开/授权日:2022-12-06