发明授权
- 专利标题: 一种语音转录文本的实体纠错方法及系统
-
申请号: CN202010439068.5申请日: 2020-05-21
-
公开(公告)号: CN111611792B公开(公告)日: 2023-05-23
- 发明人: 贾全烨 , 张强 , 宋博川 , 柴博
- 申请人: 全球能源互联网研究院有限公司 , 国家电网有限公司 , 国家电网有限公司信息通信分公司 , 国网山东省电力公司信息通信公司
- 申请人地址: 北京市昌平区未来科技城滨河大道18号; ; ;
- 专利权人: 全球能源互联网研究院有限公司,国家电网有限公司,国家电网有限公司信息通信分公司,国网山东省电力公司信息通信公司
- 当前专利权人: 全球能源互联网研究院有限公司,国家电网有限公司,国家电网有限公司信息通信分公司,国网山东省电力公司信息通信公司
- 当前专利权人地址: 北京市昌平区未来科技城滨河大道18号; ; ;
- 代理机构: 北京三聚阳光知识产权代理有限公司
- 代理商 胡晓静
- 主分类号: G06F40/232
- IPC分类号: G06F40/232 ; G06F40/295 ; G10L15/26
摘要:
本发明提供了一种语音转录文本的实体纠错方法及系统,该方法包括:对从目标语音转录文本中提取的实体词汇进行拼音标注;利用标注的拼音及基于拼音相似度的编辑距离对实体词汇进行聚类,生成聚类结果;将聚类结果中在同一类别出现频率最高的实体词汇确定为标准实体词汇,并将该类别中其他实体词汇替换为标准实体词汇。通过利用基于拼音相似度的编辑距离对实体词汇进行聚类,从而将拼音相似度作为参考因素加入编辑距离算法中,加强了对同义词及音词的辨别能力,使得聚类结果更加符合语音转录文本的实际情况,根据该聚类结果用同一类别中出现频率最高的实体词汇替换其他实体词汇,实现了对语音转录文本的纠错,进而提高了最终语音转录文本的准确性。
公开/授权文献
- CN111611792A 一种语音转录文本的实体纠错方法及系统 公开/授权日:2020-09-01