一种特征库压缩方法、装置、电子设备及存储介质

    公开(公告)号:CN118839787A

    公开(公告)日:2024-10-25

    申请号:CN202410869027.8

    申请日:2024-06-28

    发明人: 杨迪

    IPC分类号: G06N20/00

    摘要: 本申请公开了一种特征库压缩方法、装置、电子设备及存储介质,用以解决现有特征库压缩方式降低机器学习模型的精准度的问题,所述方法包括:针对特征库中的每一特征,获取特征对应的衍生指向度,特征对应的衍生指向度表征特征与特征库中其他特征之间的依赖程度;基于特征对应的衍生指向度与其他各特征对应的衍生指向度之间的偏差,分别确定特征与其他各特征之间的偏差;将特征和与其偏差最小的特征确定为一组特征分支最小结构;根据每一组特征分支最小结构对应的衍生指向度确定各自对应的权重,特征分支最小结构对应的衍生指向度表征特征分支最小结构与其他特征分支最小结构之间的依赖程度;将权重小于预设阈值的特征分支最小结构从特征库中删除。

    一种词库生成方法及相关装置
    2.
    发明公开

    公开(公告)号:CN116911285A

    公开(公告)日:2023-10-20

    申请号:CN202310822651.8

    申请日:2023-07-05

    摘要: 本申请提供了一种词库生成方法及相关装置,用以提供快速、便捷建立共性关键词库的方式。本申请实施例提供一种词库生成方法,可以包括获取第一样本库和第二样本库,其中,所述第一样本库和所述第二样本库为不同的词库,样本库中的每个文本包括一个或多个词,一个词包括一个或多个字;合成所述第一样本库和所述第二样本库,得到目标词库;对所述目标词库中符合预设条件的第二文本拆分为两个词,并增加到所述目标词库中,其中,所述第二文本为包括多个词的文本。

    一种数据流特征整合方法、装置及电子设备

    公开(公告)号:CN117009920A

    公开(公告)日:2023-11-07

    申请号:CN202310882166.X

    申请日:2023-07-18

    发明人: 杨迪

    IPC分类号: G06F18/25 G06F21/60

    摘要: 本申请提供了一种数据流特征整合方法、装置及电子设备,涉及数据安全技术领域。在本申请中,首先获取第一数据流对应的第一属性数据集合和第二数据流对应的第二属性数据集合,基于第一属性数据集合中的第一属性数据和第二属性数据集合中与第一属性数据对应的第二属性数据,计算各项属性突变指标值,然后融合各项属性突变指标值,得到属性突变融合指标值,并基于属性突变融合指标值,重构第一数据流对应的第一权重值和第二数据流对应的第二权重值;最后基于第一权重值和第二权重值对第一数据流和第二数据流进行特征整合,采用这种方式,能够提升对第一数据流和第二数据流进行特征整合的准确性。

    敏感词识别方法、装置、电子设备及存储介质

    公开(公告)号:CN114707499B

    公开(公告)日:2023-10-24

    申请号:CN202210086774.5

    申请日:2022-01-25

    IPC分类号: G06F40/284

    摘要: 本公开提供了一种敏感词识别方法、装置、电子设备及存储介质,其中,敏感词识别方法包括:从预设编码库中分别获取待识别词对应的第一字符串和敏感样本词对应的第二字符串;对第一字符串和第二字符串分别进行预处理,得到待识别词的第一字符向量和敏感样本词的第二字符向量;计算第一字符向量和第二字符向量的余弦相似度;根据计算结果,确定待识别词是否为敏感词。本公开通过获取与待识别词和敏感样本词有映射关系的第一字符串和第二字符串,对第一字符串和第二字符串向量化处理,计算第一字符向量和第二字符向量的余弦相似度,根据得到的余弦相似度确定待识别词是否为敏感词,提高了敏感词识别的准确率和效率。

    多特征库合并方法及装置、设备、计算机可读存储介质

    公开(公告)号:CN115659167A

    公开(公告)日:2023-01-31

    申请号:CN202211086894.1

    申请日:2022-09-06

    发明人: 杨迪

    摘要: 本申请的实施例揭示了多特征库合并方法及装置、设备、计算机可读存储介质。该方法包括:获取从多个子特征库中进行特征采样所得到的特征集;基于所述特征集确定特征融合计算指标,所述特征融合计算指标包括特征细节值、特征依存度、特征频度中的至少一种;根据所述特征融合计算指标确定特征融合指标,并基于所述特征融合指标确定目标特征合并方式;按照所述目标特征合并方式对所述多个子特征库进行特征合并,以得到目标特征库。本申请的实施例通过采样少量的特征来实现对于多特征库中大量特征的把控,进而选择合适的方式来对多个子特征库进行特征合并,使得所得到的目标特征库能够避免出现特征重复程度高的问题。

    模型训练方法、装置和存储介质
    8.
    发明公开

    公开(公告)号:CN115481753A

    公开(公告)日:2022-12-16

    申请号:CN202211198272.8

    申请日:2022-09-29

    发明人: 杨迪 汪少敏

    IPC分类号: G06N20/00 G06K9/62

    摘要: 本公开提出一种模型训练方法、装置和存储介质,涉及机器学习技术领域。本公开的一种模型训练方法包括:获取利用测试样本数据测试分类模型的测试结果,其中,测试样本数据包括至少两类测试样本;根据测试结果确定对测试样本数据中至少一类样本的抽样比例;和根据抽样比例在测试样本数据中抽样,将抽样样本并入训练样本数据集,以便根据训练样本数据集对分类模型进行下一轮训练。通过这样的方法,能够实现样本抽样比率的动态变化,提高模型训练速度,也提高被训练的模型的准确度。

    数据修复方法和装置
    9.
    发明授权

    公开(公告)号:CN108021469B

    公开(公告)日:2020-10-27

    申请号:CN201610925888.9

    申请日:2016-10-31

    IPC分类号: G06F11/14

    摘要: 本发明提出一种数据修复方法和装置,涉及大数据领域。其中,本发明的一种数据修复方法包括:根据待修复数据的业务类型获取业务类型的数据统计信息,数据统计信息中包括各个字段的字段长度、字段值类型和/或字段值出现频次;根据数据统计信息基于机器学习算法修复待修复数据,获取修复后数据。通过这样的方法,能够基于一个业务类型的数据特点、数据信息统计结果对待修复数据进行检测和修复,减少了大数据资源发生字段不完整、关键字段丢失、字段长度超限值、字段错误等异常现象的概率,提升了大数据资源的质量。

    切换方法、系统和计算机可读存储介质

    公开(公告)号:CN111132246A

    公开(公告)日:2020-05-08

    申请号:CN201811291981.4

    申请日:2018-11-01

    IPC分类号: H04W36/00

    摘要: 本公开涉及一种切换方法、系统和计算机可读存储介质,涉及通信技术领域。本公开的方法包括:接收跨演进分组核心网EPC的切换请求;根据终端由预设历史时间至当前时间内的切换时间信息,以及切换时的位置信息中至少一类信息,确定当前切换是否为乒乓切换;在当前切换为乒乓切换的情况下,拒绝切换请求。本公开中利用终端的位置信息和切换时间信息中至少一项辅助跨EPC切换的判断过程,降低了乒乓切换的概率,提高了切换的有效性。