-
公开(公告)号:CN114491416B
公开(公告)日:2024-07-16
申请号:CN202210166903.1
申请日:2022-02-23
申请人: 北京百度网讯科技有限公司
IPC分类号: G06F17/18 , G06F18/27 , G06F18/2431 , G06Q30/0201 , G06Q30/0202
摘要: 本公开提供了一种特征信息的处理方法,涉及数据处理技术领域,尤其涉及人工智能和大数据领域。具体实现方案为:在特征信息的待分割取值范围中确定至少一个候选分割点,并确定所述至少一个候选分割点中每个候选分割点对应的信息价值;基于所述信息价值,在所述至少一个候选分割点中确定目标分割点;基于所述目标分割点对所述待分割取值范围进行分割,得到所述待分割取值范围的两个子范围;将所述两个子范围中符合终止条件的子范围确定为目标区间,并将所述两个子范围中不符合终止条件的子范围确定为新的待分割取值范围,返回所述在待分割取值范围中确定至少一个候选分割点的步骤,直至所述两个子范围均满足所述终止条件,得到多个目标区间。
-
公开(公告)号:CN116228382A
公开(公告)日:2023-06-06
申请号:CN202310077132.3
申请日:2023-01-16
申请人: 北京百度网讯科技有限公司
摘要: 本公开提供了一种数据处理方法、装置、电子设备以及存储介质,涉及人工智能技术领域,尤其涉及机器学习和深度学习技术领域,具体可应用于金融风控场景。具体实现方案为:根据第一金融风控数据集和第二金融风控数据集,确定第一指标值集;在根据第一指标值确定第一金融风控数据集和第二金融风控数据集满足特征分布一致性的情况下,基于决策路径集,根据第一金融风控数据集和第二金融风控数据集,得到与第一金融风控数据集对应的第二指标值集和与第二金融风控数据集对应的第三指标值集;根据第二指标值集和第三指标值集,确定第一金融风控数据集和第二金融风控数据集之间的决策分布一致性程度。
-
公开(公告)号:CN115757538A
公开(公告)日:2023-03-07
申请号:CN202211432146.4
申请日:2022-11-16
申请人: 北京百度网讯科技有限公司
IPC分类号: G06F16/2458 , G06F16/22
摘要: 本公开提供了一种数据处理方法、装置、电子设备、存储介质及程序产品,涉及大数据、特征挖掘、机器学习等人工智能技术领域。该方法包括:在备选数据库表中确定核心数据库表;将核心数据库表作为遍历起始点、核心数据库表的主键作为起始关联要素,通过广度优先遍历算法逐层确定与核心数据库表存在关联的关联数据库表;将核心数据库表作为遍历起始点、将上一层的关联数据库表的主键作为从下一层的关联数据库中筛选出关联数据的筛选条件,通过深度优先遍历算法提取出关联数据。该方法通过先后进行广度优先遍历和深度优先遍历,可以自动化的从数据库中挖掘出能够用于生成数据特征的目标数据,更加便利、效率更高。
-
公开(公告)号:CN116226641A
公开(公告)日:2023-06-06
申请号:CN202310180297.3
申请日:2023-02-15
申请人: 北京百度网讯科技有限公司
IPC分类号: G06F18/213 , G06F18/2113 , G06N3/04 , G06Q40/00
摘要: 本公开提供了一种数据处理方法、装置、电子设备及存储介质,涉及计算机、数据技术领域,尤其涉及深度学习、人工智能等技术领域。具体实现方案为:获取样本数据集对应的多个待精简特征维度,样本数据集包括多个样本数据;将多个样本数据在多个待精简特征维度的原始特征值转换为预设连续型模式的特征值,得到转换后特征值;利用转换后特征值,精简多个待精简特征维度中具有共线性的特征维度,得到精简后的剩余特征维度;利用预设模型,处理多个样本数据在精简后的剩余特征维度的原始特征值。这能降低对运行深度学习模型的设备硬件性能要求,降低运行成本,提高数据处理效率,避免设备宕机的可能,提高预设模型的数据处理效果,提高设备的处理效果。
-
公开(公告)号:CN116151367A
公开(公告)日:2023-05-23
申请号:CN202310159142.1
申请日:2023-02-20
申请人: 北京百度网讯科技有限公司
摘要: 本公开提供了一种模型的训练方法、装置、电子设备和介质,涉及人工智能技术领域,尤其涉及深度学习技术领域。实现方案为:获取预训练模型,其中,预训练模型是基于第一样本数据集中的第一样本用户数据训练得到的;获取第二样本数据集,并计算第一样本数据集和第二样本数据集对应的群体稳定性指标;基于第一样本数据集的群体稳定性指标与预设阈值的比较结果以及第二样本数据集的群体稳定性指标与预设阈值的比较结果,确定第二样本用户数据的分布与第一样本用户数据的分布是否一致;以及响应于确定第二样本用户数据的分布与第一样本用户数据的分布一致,基于第二样本用户数据对预训练模型进行增量训练,以生成与第二样本数据集适配的目标模型。
-
公开(公告)号:CN114444726A
公开(公告)日:2022-05-06
申请号:CN202210357048.2
申请日:2022-04-07
申请人: 北京百度网讯科技有限公司
摘要: 本公开提供了模型生成方法、装置、电子设备及存储介质,涉及计算机技术领域,尤其涉及深度学习等人工智能等技术领域。具体实现方案为:确定样本中的多个属性分别对目标模型的稳定性影响程度;根据所述稳定性影响程度,从所述多个属性中确定目标属性;根据所述样本中的所述目标属性,对所述目标模型进行优化,生成优化后的目标模型。采用上述方案能够提高目标模型的稳定性。
-
公开(公告)号:CN114049197A
公开(公告)日:2022-02-15
申请号:CN202111328846.4
申请日:2021-11-10
申请人: 北京百度网讯科技有限公司
IPC分类号: G06Q40/02
摘要: 本公开提供了一种数据处理方法、构建模型的方法及装置,涉及计算机技术领域,尤其涉及大数据技术领域。实现方案为:获取第一预测数据集、模型特征列表和配置信息,其中,模型特征列表指示数据分析模型所需的多个特征;基于模型特征列表和第一预测数据集生成第二预测数据集,其中,第二预测数据集中的预测数据的特征维度小于第一预测数据集中的预测数据的特征维度;基于配置信息对第二预测数据集中的预测数据的特征进行特征变换,以生成第三预测数据集;以及将第三预测数据集输入数据分析模型,以获取预测结果。
-
公开(公告)号:CN114021650A
公开(公告)日:2022-02-08
申请号:CN202111299247.4
申请日:2021-11-04
申请人: 北京百度网讯科技有限公司
摘要: 本公开提供了一种数据处理方法,涉及人工智能技术领域,尤其涉及深度学习技术领域。实现方案为:获取基于第一样本数据集而训练生成的树结构,其中第一样本数据集中的第一样本数据具有对应于多个特征类型的多个特征值;基于树结构中的多个节点,确定多个特征类型中的每个特征类型所对应的多个特征区间;基于多个特征类型中的每个特征类型所对应的多个特征区间,分别确定针对各个特征类型的至少一个目标区间,以获得目标区间集;以及基于目标区间集,确定第二样本数据的特征向量。
-
公开(公告)号:CN115062062A
公开(公告)日:2022-09-16
申请号:CN202210744056.2
申请日:2022-06-27
申请人: 北京百度网讯科技有限公司
IPC分类号: G06F16/2455
摘要: 本公开提供了一种搜索方法和装置,涉及大数据技术领域。具体实现方案为:从第一目标存储器中获取多个对应同一数据处理目标的数据处理条件;基于所述数据处理条件,从第二目标存储器提取相应的测算样本;采用目标处理器基于测算样本和数据处理目标,计算并排序所有数据处理条件对应数据处理目标的测算结果,得到条件结果序列;组合条件结果序列中的测算结果对应的数据处理条件,得到条件组序列;基于条件组序列的测算样本的交集对应的测算结果,确定应用条件集,并将应用条件集存入第一目标存储器。该实施方式提高了应用条件的搜索效率。
-
公开(公告)号:CN114881163A
公开(公告)日:2022-08-09
申请号:CN202210564917.9
申请日:2022-05-23
申请人: 北京百度网讯科技有限公司
IPC分类号: G06K9/62 , G06F40/216 , G06Q40/02
摘要: 本公开提供了一种特征编码方法、装置、设备、介质和程序产品,涉及机器学习技术领域,尤其涉及智慧金融、人工智能和深度学习技术。具体实现方案为:根据多个对象的样本数,和至少两种类别下多个对象的样本数,计算多个对象在至少两种类别中的第一权重,其中,所述模型训练的目标是使模型在至少两种类别中对输入的对象进行分类;根据第一权重对多个对象进行分箱,得到多个对象分箱;根据多个对象分箱的样本数,和至少两种类别下多个对象分箱的样本数,计算多个对象分箱在至少两种类别中的第二权重,并将多个对象分箱的第二权重作为多个对象分箱的特征取值。本公开可以提升稀疏特征的覆盖度、单调性和区分度,从而增强模型训练效果。
-
-
-
-
-
-
-
-
-