一种特征库压缩方法、装置、电子设备及存储介质

    公开(公告)号:CN118839787A

    公开(公告)日:2024-10-25

    申请号:CN202410869027.8

    申请日:2024-06-28

    发明人: 杨迪

    IPC分类号: G06N20/00

    摘要: 本申请公开了一种特征库压缩方法、装置、电子设备及存储介质,用以解决现有特征库压缩方式降低机器学习模型的精准度的问题,所述方法包括:针对特征库中的每一特征,获取特征对应的衍生指向度,特征对应的衍生指向度表征特征与特征库中其他特征之间的依赖程度;基于特征对应的衍生指向度与其他各特征对应的衍生指向度之间的偏差,分别确定特征与其他各特征之间的偏差;将特征和与其偏差最小的特征确定为一组特征分支最小结构;根据每一组特征分支最小结构对应的衍生指向度确定各自对应的权重,特征分支最小结构对应的衍生指向度表征特征分支最小结构与其他特征分支最小结构之间的依赖程度;将权重小于预设阈值的特征分支最小结构从特征库中删除。

    一种词库生成方法及相关装置
    2.
    发明公开

    公开(公告)号:CN116911285A

    公开(公告)日:2023-10-20

    申请号:CN202310822651.8

    申请日:2023-07-05

    摘要: 本申请提供了一种词库生成方法及相关装置,用以提供快速、便捷建立共性关键词库的方式。本申请实施例提供一种词库生成方法,可以包括获取第一样本库和第二样本库,其中,所述第一样本库和所述第二样本库为不同的词库,样本库中的每个文本包括一个或多个词,一个词包括一个或多个字;合成所述第一样本库和所述第二样本库,得到目标词库;对所述目标词库中符合预设条件的第二文本拆分为两个词,并增加到所述目标词库中,其中,所述第二文本为包括多个词的文本。

    一种数据流特征整合方法、装置及电子设备

    公开(公告)号:CN117009920A

    公开(公告)日:2023-11-07

    申请号:CN202310882166.X

    申请日:2023-07-18

    发明人: 杨迪

    IPC分类号: G06F18/25 G06F21/60

    摘要: 本申请提供了一种数据流特征整合方法、装置及电子设备,涉及数据安全技术领域。在本申请中,首先获取第一数据流对应的第一属性数据集合和第二数据流对应的第二属性数据集合,基于第一属性数据集合中的第一属性数据和第二属性数据集合中与第一属性数据对应的第二属性数据,计算各项属性突变指标值,然后融合各项属性突变指标值,得到属性突变融合指标值,并基于属性突变融合指标值,重构第一数据流对应的第一权重值和第二数据流对应的第二权重值;最后基于第一权重值和第二权重值对第一数据流和第二数据流进行特征整合,采用这种方式,能够提升对第一数据流和第二数据流进行特征整合的准确性。

    关键信息识别方法、装置以及存储介质

    公开(公告)号:CN114297383B

    公开(公告)日:2024-09-06

    申请号:CN202111643213.2

    申请日:2021-12-29

    摘要: 本公开提供了一种关键信息识别方法、装置以及存储介质,其中的方法包括:对于关键信息设置对应的权重系数值以及权重系数阈值;如果至少一个权重系数值大于权重系数阈值,则将与大于权重系数阈值的权重系数值对应的关键信息作为识别目标关键信息,并根据识别目标关键信息对待识别文本进行分类处理;如果全部权重系数值都小于或等于权重系数阈值,则计算关键信息之间的关联因子信息;基于关联因子信息计算与待识别文本相对的关联识别权重值,根据关联识别权重值对待识别文本进行分类处理。本公开的方法、装置以及存储介质,可以通过累计相关性提升关键信息识别效果,提升识别的准确率。

    弯曲文字识别方法和装置

    公开(公告)号:CN111199224B

    公开(公告)日:2023-06-23

    申请号:CN201811379524.0

    申请日:2018-11-20

    摘要: 本公开提出一种弯曲文字识别方法和装置,涉及文字识别领域。获取待检测图像中的文字框以及各个文字框对应的单词,根据单词中的相邻的文字框之间的角度差,检测该单词是否为弯曲文字,将弯曲文字的文字框之间插入空格,将处理后的弯曲文字输入文字识别模型进行文字识别。从而,实现弯曲文字的检测和识别。

    不良信息的识别方法、装置和系统

    公开(公告)号:CN114443806A

    公开(公告)日:2022-05-06

    申请号:CN202011231428.9

    申请日:2020-11-06

    IPC分类号: G06F16/33 G06F16/35 G06N20/00

    摘要: 本公开涉及不良信息的识别方法、装置和系统。公开了一种不良信息的识别方法,包括:将待识别数据输入机器学习模型以识别不良信息及其一个或多个类别的第一集合;将待识别数据输入敏感词匹配算法以识别不良信息及其一个或多个类别的第二集合;确定第一集合中的每个类别的第一可能性值,第一可能性值表示不良信息为第一集合中的每个类别的可能性;确定第二集合中的每个类别的第二可能性值,第二可能性值表示不良信息为第二集合中的每个类别的可能性;以及将每个类别的第一可能性值和第二可能性值相加得到每个类别的总可能性值,并将具有最大总可能性值的一个或多个类别确定为不良信息的类别。

    异常服务地址检测方法和装置、计算机可读存储介质

    公开(公告)号:CN113810338A

    公开(公告)日:2021-12-17

    申请号:CN202010535053.9

    申请日:2020-06-12

    IPC分类号: H04L29/06

    摘要: 本公开涉及一种异常服务地址检测方法和装置、计算机可读存储介质。该异常服务地址检测方法包括:采集并处理日志数据;从日志数据中提取服务地址特征向量;计算服务地址特征向量间的余弦相似度;将所述余弦相似度作为网页排名算法中的链上权重值,对服务地址特征向量进行相似重要程度排序;从相似重要程度序列中按照预定顺序截取预定数目的服务地址特征向量,将截取的服务地址作为异常服务地址。本公开可以基于链接关系进行异常服务地址检测,从而大大提升了异常服务地址检测效率。

    数据传输方法、系统、节点及计算机可读存储介质

    公开(公告)号:CN109951507B

    公开(公告)日:2021-12-14

    申请号:CN201711389217.6

    申请日:2017-12-21

    IPC分类号: H04L29/08

    摘要: 本公开提供了一种数据传输方法、系统、节点及计算机可读存储介质,涉及数据传输技术领域,所述方法包括:数据传输路径上的第1节点向第2节点发送第1数据文件和对账核查文件,数据传输路径上具有N个节点;第i节点向第i+1节点发送第i数据文件和第i对账文件,2≤i≤N‑1,第i对账文件包括第1节点至第i+1节点中相邻节点中的前一节点向后一节点发送的对账核查文件、以及第1节点至第i节点中相邻节点中的后一节点向前一节点发送的对账回馈文件;第N节点根据数据传输路径上相邻节点中前一节点向后一节点发送的对账核查文件、以及后一节点向前一节点发送的对账回馈文件,确定相邻节点之间的数据传输质量。