基于n-gram模型的错误拦截词筛选方法及系统

发明公开

CN113948065A 基于n-gram模型的错误拦截词筛选方法及系统有权

请登陆查看更多内容

专利标题： 基于n-gram模型的错误拦截词筛选方法及系统
申请号： CN202111020788.9

申请日： 2021-09-01
公开(公告)号： CN113948065A

公开(公告)日： 2022-01-18
发明人: 冉小龙 , 唐会军 , 刘拴林 , 梁堃 , 陈建
申请人： 北京数美时代科技有限公司
申请人地址： 北京市朝阳区来广营西路5号院诚盈中心3号楼14层1401-1404单元
专利权人： 北京数美时代科技有限公司
当前专利权人： 北京数美时代科技有限公司
当前专利权人地址： 北京市朝阳区来广营西路5号院诚盈中心3号楼14层1401-1404单元
代理机构： 北京轻创知识产权代理有限公司
代理商 赖定珍
主分类号： G10L15/06
IPC分类号： G10L15/06 ; G10L15/22 ; G10L15/26 ; G06F40/211 ; G06F40/216

摘要：

本发明公开了基于n‑gram模型的错误拦截词筛选方法及系统，涉及网络安全技术领域。该方法包括：获取基于特定标签下的拦截词拦截的音频转译文本数据；通过n‑gram模型对文本数据进行处理，从文本数据中筛选出特定标签中没有存储的数据作为回退信息；根据回退信息确定包含错误拦截词的句子。本发明适用于违禁词和敏感词的拦截，尤其是音频转译文本数据的违禁词和敏感词拦截，能够快速找到拦截错误的句子和错误的拦截词，后续可根据得到的错误拦截词对违禁词库进行完善和优化，从而提高对应拦截词的拦截准确率和整体的拦截准确率。

公开/授权文献

CN113948065B 基于n-gram模型的错误拦截词筛选方法及系统公开/授权日：2022-07-08

信息查询

中国专利公布公告 Global Dossier Espacenet

IPC分类:

G	物理
G10	乐器；声学
G10L	语音分析或合成；语音识别；语音或声音处理；语音或音频编码或解码
G10L15/00	语音识别（G10L17/00优先）
G10L15/06	.创建基准模板；训练语音识别系统，例如对说话者声音特征的适应（G10L15/14优先）