一种利用掩码语言模型建模的图片敏感文字检测方法

    公开(公告)号:CN118172778A

    公开(公告)日:2024-06-11

    申请号:CN202211579126.X

    申请日:2022-12-08

    申请人: 南京大学

    摘要: 本发明提出了一种利用掩码语言模型建模的图片敏感文字检测方法,包括:光学字符识别模块、关键位置召回模块、掩码重建模块、重建结果选择模块和文字敏感性检测模块;待检测图片依次经过光学字符识别模块、关键位置召回模块、掩码重建模块、重建结果选择模块和文字敏感性检测模块,得到最终的图片敏感文字检测结果。本发明方法简单直接,可理解性强;不需要人工标注数据训练模型,成本低廉;可以作为现有的图片敏感文字检测系统的扩充,用途广泛;通过掩码语言模型对关键位置的文本进行重建,既能够对光学字符识别出错的文字进行纠错,也可以还原出被故意修改的地方原本的文字,有助于减少图片敏感文字检测系统错检漏检情况的发生。

    一种面向领域的并行大规模文本查重方法

    公开(公告)号:CN115544999A

    公开(公告)日:2022-12-30

    申请号:CN202211285569.8

    申请日:2022-10-20

    申请人: 南京大学

    摘要: 本发明提出了一种面向领域的并行大规模文本查重方法,包括:构建底库和文件查重,具体包括:获取目标查重领域的文档数据,对所述文档数据进行处理,得到文档,将文档存入数据库,得到底库;将底库中的文档进行分句,得到句子数据集;基于对比学习的方法,训练句子编码器;针对句子数据集中的每个句子创建倒排索引。针对待查重的目标文档,进行分句操作,得到句子集合;对句子集合中的每个句子进行检索,得到关联的句子集合;筛选得到和待查重的目标文档的句子集合中的每个句子相似的句子以及相似度集合;待查重的目标文档的句子集合中的每个句子及其对应的重复内容组成重复内容即查重结果,完成所述面向领域的并行大规模文本查重。