一种词库生成方法及相关装置
    3.
    发明公开

    公开(公告)号:CN116911285A

    公开(公告)日:2023-10-20

    申请号:CN202310822651.8

    申请日:2023-07-05

    摘要: 本申请提供了一种词库生成方法及相关装置,用以提供快速、便捷建立共性关键词库的方式。本申请实施例提供一种词库生成方法,可以包括获取第一样本库和第二样本库,其中,所述第一样本库和所述第二样本库为不同的词库,样本库中的每个文本包括一个或多个词,一个词包括一个或多个字;合成所述第一样本库和所述第二样本库,得到目标词库;对所述目标词库中符合预设条件的第二文本拆分为两个词,并增加到所述目标词库中,其中,所述第二文本为包括多个词的文本。

    数据识别策略的更新方法及相关装置

    公开(公告)号:CN116894201A

    公开(公告)日:2023-10-17

    申请号:CN202310835713.9

    申请日:2023-07-07

    摘要: 本公开提供数据识别策略的更新方法及相关装置。用于提高数据识别策略的更新效率。该方法包括:在响应于用户发送的数据识别策略更新指令,基于所述数据识别策略更新指令确定数据识别策略更新内容和待更新的数据识别策略;对所述数据识别策略更新内容进行识别,得到所述数据识别策略更新内容中的至少一个核心词语;针对任意一个核心词语,将所述核心词语与所述待更新的数据识别策略中的目标词语集合进行匹配,得到所述核心词语的识别类别以及类别置信度;根据各核心词语的识别类别以及所述各核心词语的类别置信度对所述待更新的数据识别策略进行更新,得到更新后的数据识别策略。

    一种敏感数据识别方法、装置及存储介质

    公开(公告)号:CN116894073A

    公开(公告)日:2023-10-17

    申请号:CN202310833297.9

    申请日:2023-07-07

    发明人: 王铮

    摘要: 本申请公开了一种敏感数据识别方法、装置及存储介质。该方法具体包括:电子设备获取第一数据集及第二数据集,第一数据集包括N个字段的敏感数据,第二数据集包括M个字段的待检测数据;其中,第一数据集为预先存储的经过标注的敏感数据集,第二数据集为采集到的未经标注的数据集。电子设备对第一数据集及第二数据集中字符类型相同的字段的数据进行合并,获得第三数据集,第三数据集包括S个字段的数据。电子设备对第三数据集中的数据进行聚类,获得R类数据。电子设备确定第三数据集的R类数据中敏感数据与待检测数据的分布差异,若分布差异小于第一预设阈值,则确定第三数据集中的数据为敏感数据。通过该方法可以提高敏感数据识别的效率。

    日志处理方法和装置
    6.
    发明授权

    公开(公告)号:CN112559474B

    公开(公告)日:2024-09-03

    申请号:CN201910914657.1

    申请日:2019-09-26

    摘要: 本公开公开了一种日志处理方法和装置,涉及数据处理领域。该方法包括:利用停用词库对样本日志文件进行分词处理,得到样本日志文件中的多个词语;对多个词语进行词频统计,将词频数大于词频阈值的词语作为高频词;将样本日志文件中连续出现的预定个数的高频词,作为高频词组;计算每个高频词组与标点组合的加权概率;根据加权概率大于概率阈值的高频词组与标点组合,构建日志模版;根据日志模版,提取日志数据中的关键信息。本公开提高了日志处理的准确性。

    异常服务地址检测方法和装置、计算机可读存储介质

    公开(公告)号:CN113810338B

    公开(公告)日:2023-11-03

    申请号:CN202010535053.9

    申请日:2020-06-12

    IPC分类号: H04L9/40

    摘要: 本公开涉及一种异常服务地址检测方法和装置、计算机可读存储介质。该异常服务地址检测方法包括:采集并处理日志数据;从日志数据中提取服务地址特征向量;计算服务地址特征向量间的余弦相似度;将所述余弦相似度作为网页排名算法中的链上权重值,对服务地址特征向量进行相似重要程度排序;从相似重要程度序列中按照预定顺序截取预定数目的服务地址特征向量,将截取的服务地址作为异常服务地址。本公开可以基于链接关系进行异常服务地址检测,从而大大提升了异常服务地址检测效率。

    数据识别器训练、数据识别方法、装置、电子设备及介质

    公开(公告)号:CN115221974A

    公开(公告)日:2022-10-21

    申请号:CN202210929114.9

    申请日:2022-08-03

    IPC分类号: G06K9/62

    摘要: 本公开提供了一种数据识别器训练、数据识别方法、装置、电子设备及介质,涉及数据安全技术领域。该数据识别器训练方法包括:获取第一训练集,第一训练集中分别包括多个类别的样本,所述多个类别的样本的分布不均衡;训练所述第一训练集,得到第一分类器;循环执行如下迭代过程,直至所述多个类别的样本的分布均衡:调整所述多个类别的样本的数量,得到第二训练集,训练所述第二训练集,得到第二分类器;基于所述第一分类器和所述第二分类器,得到数据识别器。该训练方法加强了对小类别样本的学习效果,解决了由于样本稀少导致对小类别样本训练不足、识别准确率低的问题,能够在小类别样本不足的情况下,提高了数据识别器的拟合能力和准确率。

    敏感词识别方法、装置、电子设备及存储介质

    公开(公告)号:CN114707499A

    公开(公告)日:2022-07-05

    申请号:CN202210086774.5

    申请日:2022-01-25

    IPC分类号: G06F40/284

    摘要: 本公开提供了一种敏感词识别方法、装置、电子设备及存储介质,其中,敏感词识别方法包括:从预设编码库中分别获取待识别词对应的第一字符串和敏感样本词对应的第二字符串;对第一字符串和第二字符串分别进行预处理,得到待识别词的第一字符向量和敏感样本词的第二字符向量;计算第一字符向量和第二字符向量的余弦相似度;根据计算结果,确定待识别词是否为敏感词。本公开通过获取与待识别词和敏感样本词有映射关系的第一字符串和第二字符串,对第一字符串和第二字符串向量化处理,计算第一字符向量和第二字符向量的余弦相似度,根据得到的余弦相似度确定待识别词是否为敏感词,提高了敏感词识别的准确率和效率。

    日志处理方法和装置
    10.
    发明公开

    公开(公告)号:CN112559474A

    公开(公告)日:2021-03-26

    申请号:CN201910914657.1

    申请日:2019-09-26

    摘要: 本公开公开了一种日志处理方法和装置,涉及数据处理领域。该方法包括:利用停用词库对样本日志文件进行分词处理,得到样本日志文件中的多个词语;对多个词语进行词频统计,将词频数大于词频阈值的词语作为高频词;将样本日志文件中连续出现的预定个数的高频词,作为高频词组;计算每个高频词组与标点组合的加权概率;根据加权概率大于概率阈值的高频词组与标点组合,构建日志模版;根据日志模版,提取日志数据中的关键信息。本公开提高了日志处理的准确性。