发明公开
- 专利标题: 一种基于语境表征的中文网络暴力语言检测方法及系统
-
申请号: CN202310423711.9申请日: 2023-04-19
-
公开(公告)号: CN116796732A公开(公告)日: 2023-09-22
- 发明人: 王栋 , 梁晓静 , 许子鑫
- 申请人: 上海应用技术大学
- 申请人地址: 上海市奉贤区海泉路100号
- 专利权人: 上海应用技术大学
- 当前专利权人: 上海应用技术大学
- 当前专利权人地址: 上海市奉贤区海泉路100号
- 代理机构: 南京禹为知识产权代理事务所
- 代理商 曹洪
- 主分类号: G06F40/242
- IPC分类号: G06F40/242 ; G06F40/211 ; G06F40/30 ; G06F16/951 ; G06N3/0442
摘要:
本发明公开了一种基于语境表征的中文网络暴力语言检测方法及系统,包括:获取当前用户的网络评论数据;构建暴力语言敏感禁止词典;构建暴力语言检测模型,通过预训练模型NEZHA对当前用户的网络评论数据进行词嵌入编码,对文本进行上下文建模,提取文本的特征表示;将文本的向量表示输入到BiLSTM层,捕获长距离依赖;采用一个全连接网络进行输出连接;通过softmax函数输出分析结果,判断数据是否为网络禁止语言以及是否提示用户修改评论,并判断是否跳出检测流程得到检测结果。本发明基于语境表征的中文网络暴力语言检测方法,面向中文理解的神经语境表征模型,对于中文网络暴力语言具有更好的检测性能以及通用性。