基于n-gram模型的错误拦截词筛选方法及系统
摘要:
本发明公开了基于n‑gram模型的错误拦截词筛选方法及系统,涉及网络安全技术领域。该方法包括:获取基于特定标签下的拦截词拦截的音频转译文本数据;通过n‑gram模型对文本数据进行处理,从文本数据中筛选出特定标签中没有存储的数据作为回退信息;根据回退信息确定包含错误拦截词的句子。本发明适用于违禁词和敏感词的拦截,尤其是音频转译文本数据的违禁词和敏感词拦截,能够快速找到拦截错误的句子和错误的拦截词,后续可根据得到的错误拦截词对违禁词库进行完善和优化,从而提高对应拦截词的拦截准确率和整体的拦截准确率。
公开/授权文献
0/0