-
公开(公告)号:CN116911285A
公开(公告)日:2023-10-20
申请号:CN202310822651.8
申请日:2023-07-05
申请人: 中国电信股份有限公司技术创新中心 , 中国电信股份有限公司
IPC分类号: G06F40/242 , G06F40/284 , G06F40/216
摘要: 本申请提供了一种词库生成方法及相关装置,用以提供快速、便捷建立共性关键词库的方式。本申请实施例提供一种词库生成方法,可以包括获取第一样本库和第二样本库,其中,所述第一样本库和所述第二样本库为不同的词库,样本库中的每个文本包括一个或多个词,一个词包括一个或多个字;合成所述第一样本库和所述第二样本库,得到目标词库;对所述目标词库中符合预设条件的第二文本拆分为两个词,并增加到所述目标词库中,其中,所述第二文本为包括多个词的文本。
-
公开(公告)号:CN116894201A
公开(公告)日:2023-10-17
申请号:CN202310835713.9
申请日:2023-07-07
申请人: 中国电信股份有限公司技术创新中心 , 中国电信股份有限公司
IPC分类号: G06F18/24 , G06F18/214 , G06F18/22 , G06F40/284 , G06F16/35 , G06F21/60
摘要: 本公开提供数据识别策略的更新方法及相关装置。用于提高数据识别策略的更新效率。该方法包括:在响应于用户发送的数据识别策略更新指令,基于所述数据识别策略更新指令确定数据识别策略更新内容和待更新的数据识别策略;对所述数据识别策略更新内容进行识别,得到所述数据识别策略更新内容中的至少一个核心词语;针对任意一个核心词语,将所述核心词语与所述待更新的数据识别策略中的目标词语集合进行匹配,得到所述核心词语的识别类别以及类别置信度;根据各核心词语的识别类别以及所述各核心词语的类别置信度对所述待更新的数据识别策略进行更新,得到更新后的数据识别策略。
-
公开(公告)号:CN116894112A
公开(公告)日:2023-10-17
申请号:CN202310835779.8
申请日:2023-07-07
申请人: 中国电信股份有限公司技术创新中心 , 中国电信股份有限公司
IPC分类号: G06F16/906 , G06F18/2415 , G06F18/22
摘要: 本申请涉及一种数据分类方法、装置、计算机设备及其存储介质,涉及人工智能技术领域,所述方法包括:获取待识别数据,待识别数据中包含至少一个子数据;通过数据分类模型,确定待识别数据中各子数据对应的预测结构名;基于各子数据对应的预测结构名,确定待识别数据的分类结果。本申请避免当同类数据用不同的结构名进行表示时,对待识别数据的分类结果造成影响,提高了对待识别数据进行分类识别过程的抗干扰能力,保证了确定待识别数据的分类结果的准确性。
-
公开(公告)号:CN114707499B
公开(公告)日:2023-10-24
申请号:CN202210086774.5
申请日:2022-01-25
申请人: 中国电信股份有限公司
IPC分类号: G06F40/284
摘要: 本公开提供了一种敏感词识别方法、装置、电子设备及存储介质,其中,敏感词识别方法包括:从预设编码库中分别获取待识别词对应的第一字符串和敏感样本词对应的第二字符串;对第一字符串和第二字符串分别进行预处理,得到待识别词的第一字符向量和敏感样本词的第二字符向量;计算第一字符向量和第二字符向量的余弦相似度;根据计算结果,确定待识别词是否为敏感词。本公开通过获取与待识别词和敏感样本词有映射关系的第一字符串和第二字符串,对第一字符串和第二字符串向量化处理,计算第一字符向量和第二字符向量的余弦相似度,根据得到的余弦相似度确定待识别词是否为敏感词,提高了敏感词识别的准确率和效率。
-
公开(公告)号:CN113810338B
公开(公告)日:2023-11-03
申请号:CN202010535053.9
申请日:2020-06-12
申请人: 中国电信股份有限公司
IPC分类号: H04L9/40
摘要: 本公开涉及一种异常服务地址检测方法和装置、计算机可读存储介质。该异常服务地址检测方法包括:采集并处理日志数据;从日志数据中提取服务地址特征向量;计算服务地址特征向量间的余弦相似度;将所述余弦相似度作为网页排名算法中的链上权重值,对服务地址特征向量进行相似重要程度排序;从相似重要程度序列中按照预定顺序截取预定数目的服务地址特征向量,将截取的服务地址作为异常服务地址。本公开可以基于链接关系进行异常服务地址检测,从而大大提升了异常服务地址检测效率。
-
公开(公告)号:CN115221974A
公开(公告)日:2022-10-21
申请号:CN202210929114.9
申请日:2022-08-03
申请人: 中国电信股份有限公司
IPC分类号: G06K9/62
摘要: 本公开提供了一种数据识别器训练、数据识别方法、装置、电子设备及介质,涉及数据安全技术领域。该数据识别器训练方法包括:获取第一训练集,第一训练集中分别包括多个类别的样本,所述多个类别的样本的分布不均衡;训练所述第一训练集,得到第一分类器;循环执行如下迭代过程,直至所述多个类别的样本的分布均衡:调整所述多个类别的样本的数量,得到第二训练集,训练所述第二训练集,得到第二分类器;基于所述第一分类器和所述第二分类器,得到数据识别器。该训练方法加强了对小类别样本的学习效果,解决了由于样本稀少导致对小类别样本训练不足、识别准确率低的问题,能够在小类别样本不足的情况下,提高了数据识别器的拟合能力和准确率。
-
公开(公告)号:CN114707499A
公开(公告)日:2022-07-05
申请号:CN202210086774.5
申请日:2022-01-25
申请人: 中国电信股份有限公司
IPC分类号: G06F40/284
摘要: 本公开提供了一种敏感词识别方法、装置、电子设备及存储介质,其中,敏感词识别方法包括:从预设编码库中分别获取待识别词对应的第一字符串和敏感样本词对应的第二字符串;对第一字符串和第二字符串分别进行预处理,得到待识别词的第一字符向量和敏感样本词的第二字符向量;计算第一字符向量和第二字符向量的余弦相似度;根据计算结果,确定待识别词是否为敏感词。本公开通过获取与待识别词和敏感样本词有映射关系的第一字符串和第二字符串,对第一字符串和第二字符串向量化处理,计算第一字符向量和第二字符向量的余弦相似度,根据得到的余弦相似度确定待识别词是否为敏感词,提高了敏感词识别的准确率和效率。
-
公开(公告)号:CN115221974B
公开(公告)日:2024-09-06
申请号:CN202210929114.9
申请日:2022-08-03
申请人: 中国电信股份有限公司
IPC分类号: G06F18/25 , G06F18/241
摘要: 本公开提供了一种数据识别器训练、数据识别方法、装置、电子设备及介质,涉及数据安全技术领域。该数据识别器训练方法包括:获取第一训练集,第一训练集中分别包括多个类别的样本,所述多个类别的样本的分布不均衡;训练所述第一训练集,得到第一分类器;循环执行如下迭代过程,直至所述多个类别的样本的分布均衡:调整所述多个类别的样本的数量,得到第二训练集,训练所述第二训练集,得到第二分类器;基于所述第一分类器和所述第二分类器,得到数据识别器。该训练方法加强了对小类别样本的学习效果,解决了由于样本稀少导致对小类别样本训练不足、识别准确率低的问题,能够在小类别样本不足的情况下,提高了数据识别器的拟合能力和准确率。
-
公开(公告)号:CN115794961A
公开(公告)日:2023-03-14
申请号:CN202211464769.X
申请日:2022-11-22
申请人: 中国电信股份有限公司
IPC分类号: G06F16/28 , G06F16/901 , G06F16/22
摘要: 本公开涉及关键数据表识别方法及装置、计算机可存储介质,涉及数据处理技术领域。关键数据表识别方法包括:获取目标领域的多个数据表及其属性信息、与所述目标领域的相关标准对应的基础数据元集合;根据所述多个数据表的属性信息与所述基础数据元之间的匹配情况,构建所述多个数据表之间的关联网络,其中,所述关联网络以每个数据表为节点,数据表之间的关联关系为边;根据所述关联网络,识别所述多个数据表中的关键数据表。根据本公开,可以提高关键数据表的识别准确率。
-
公开(公告)号:CN115457333A
公开(公告)日:2022-12-09
申请号:CN202211250720.4
申请日:2022-10-12
申请人: 中国电信股份有限公司
IPC分类号: G06V10/764 , G06V10/44
摘要: 本申请的实施例公开了一种图片分类方法及装置、电子设备、计算机可读介质,该图片分类方法包括:获取待分类分片组;其中,待分类分片组中包括多个待分类分片,多个待分类分片是对待分类图片拆分得到的;将多个待分类分片与多个标准分片组含有的标准分片进行特征比对,得到多个待分类分片针对每个标准分片组的第一特征比对值;根据多个第一特征比对值从预设整体图片集合中选择目标图片;其中,预设整体图片集合中包括多个标准分片组分别对应的标准图片;将待分类图片与目标图片进行特征比对,得到第二特征比对值,并根据第二特征比对值对待分类图片进行分类。通过该方法,可以提高图片识别率。
-
-
-
-
-
-
-
-
-