一种联合OCR模型和NLP模型的互联网有害信息检测方法

    公开(公告)号:CN117132995A

    公开(公告)日:2023-11-28

    申请号:CN202311041188.X

    申请日:2023-08-18

    摘要: 本发明提供一种联合OCR模型和NLP模型的互联网有害信息检测方法,包括以下步骤:通过网络爬虫获取网站的第一文本数据和图片数据,利用训练好的第一改进NLP模型,对第一文本数据进行处理,得到第一判别结果;利用OCR模型识别图片数据中的文字目标,并对文字目标进行识别,获得第二文本数据,利用训练好的第二改进NLP模型,对识别出的第二文本数据进行处理,得到第二判别结果;将第一文本与第二文本进行拼接,得到第三文本数据,利用训练好的第三改进NLP模型,对第三文本数据进行处理,得到第三判别结果;将第一判别结果、第二判别结果以及第三判别结果送入训练好的综合研判模型进行综合研判,获得最终分类结果。