- 专利标题: 基于n-gram模型的错误拦截词筛选方法及系统
-
申请号: CN202111020788.9申请日: 2021-09-01
-
公开(公告)号: CN113948065B公开(公告)日: 2022-07-08
- 发明人: 冉小龙 , 唐会军 , 刘拴林 , 梁堃 , 陈建
- 申请人: 北京数美时代科技有限公司
- 申请人地址: 北京市朝阳区来广营西路5号院诚盈中心3号楼14层1401-1404单元
- 专利权人: 北京数美时代科技有限公司
- 当前专利权人: 北京数美时代科技有限公司
- 当前专利权人地址: 北京市朝阳区来广营西路5号院诚盈中心3号楼14层1401-1404单元
- 代理机构: 北京轻创知识产权代理有限公司
- 代理商 赖定珍
- 主分类号: G10L15/06
- IPC分类号: G10L15/06 ; G10L15/22 ; G10L15/26 ; G06F40/211 ; G06F40/216
摘要:
本发明公开了基于n‑gram模型的错误拦截词筛选方法及系统,涉及网络安全技术领域。该方法包括:获取基于特定标签下的拦截词拦截的音频转译文本数据;通过n‑gram模型对文本数据进行处理,从文本数据中筛选出特定标签中没有存储的数据作为回退信息;根据回退信息确定包含错误拦截词的句子。本发明适用于违禁词和敏感词的拦截,尤其是音频转译文本数据的违禁词和敏感词拦截,能够快速找到拦截错误的句子和错误的拦截词,后续可根据得到的错误拦截词对违禁词库进行完善和优化,从而提高对应拦截词的拦截准确率和整体的拦截准确率。
公开/授权文献
- CN113948065A 基于n-gram模型的错误拦截词筛选方法及系统 公开/授权日:2022-01-18