-
公开(公告)号:CN116088717A
公开(公告)日:2023-05-09
申请号:CN202211634650.2
申请日:2022-12-19
IPC分类号: G06F3/0481 , G06N3/0464 , G06N3/08 , G06F18/214 , G06F18/2415
摘要: 本申请实施例公开一种模型的训练方法、数据处理方法以及相关设备,该方法可用于人工智能领域中,方法包括:将训练样本输入第一模型,得到第一预测信息和第二预测信息,根据第一预测信息和第二预测信息生成第一信息,第一预测信息指示用户对第一对象进行交互的第一概率,第一信息指示用户对第一对象进行交互的第二概率,根据第一损失函数对第一模型进行训练;在应用阶段,利用训练后的第一模型得到第一预测信息,而在训练阶段,第一损失函数指示第一信息和观测信息(也即观测到用户是否与第一对象交互)之间的相似度,也即已经假定了该观测信息是存在偏差的,因此,该第一预测信息更能够反映用户对对象的喜好程度。
-
公开(公告)号:CN115048560A
公开(公告)日:2022-09-13
申请号:CN202210326504.7
申请日:2022-03-30
IPC分类号: G06F16/9035 , G06F16/909 , G06K9/62 , G06N3/04 , G06N3/08
摘要: 本申请公开了一种数据处理方法,可以应用于人工智能领域,方法包括:获取操作日志,操作日志包括用户在第一推荐场景中的第一操作数据;根据第一操作数据,分别通过第一特征提取网络和第二特征提取网络,得到第一特征表示和第二特征表示;根据第一特征表示,通过任务网络,得到第一倾向性信息和第二倾向性信息,并第一门控网络的第一权重和第二权重,对第一倾向性信息和第二倾向性信息进行融合,以得到第一目标倾向性信息。本申请可以降低不同推荐场景之间的干扰,进而解决多场景联合建模的情况下,单任务模型受数据之间分布不同的影响,所导致的预测准确性下降的问题。
-
公开(公告)号:CN118786425A
公开(公告)日:2024-10-15
申请号:CN202280089427.6
申请日:2022-01-29
IPC分类号: G06F16/9538
摘要: 本申请涉及一种排序模型训练方法、装置及存储介质,所述方法包括:根据日志数据,确定第一训练集;根据所述第一训练集中各个第一样本的位置信息,确定所述各个第一样本的逆倾向性得分;根据与所述各个参考查询词对应的未被用户观测的查询结果,确定第二训练集;根据所述第一训练集、所述逆倾向性得分及所述第二训练集,训练排序模型,所述排序模型用于预测查询词与查询结果之间的相关性。本申请的实施例能够同时消除选择偏置及位置偏置对排序模型的影响,从而得到无偏的排序模型。
-
公开(公告)号:CN117061733A
公开(公告)日:2023-11-14
申请号:CN202310885569.X
申请日:2023-07-18
IPC分类号: H04N17/02 , H04N21/475 , H04N21/234 , H04N21/4728
摘要: 本申请公开了一种视频评估方法及其相关设备,可对多个视频进行准确的评估,从而准确得到用户对多个视频的感兴趣程度。本申请的方法包括:获取第一视频组,第一视频组包含多个第一视频;对多个第一视频的观看时长进行处理,得到第一视频组的参数,第一视频组的参数用于指示多个第一视频的观看时长的偏置和多个第一视频的观看时长的噪声;基于第一视频组的参数以及多个第一视频的观看时长,获取多个第一视频的评估值,多个第一视频的评估值用于指示用户对多个第一视频的感兴趣程度。
-
公开(公告)号:CN112085524B
公开(公告)日:2022-11-15
申请号:CN202010896316.9
申请日:2020-08-31
摘要: 本发明涉及一种基于Q学习模型的结果推送方法和系统,包括以下步骤:将状态st、推送结果at,下一状态st+1和奖励值rt+1组成一个数据组,并将其存储至经验池D中;从经验池D中提取若干数据组,计算网络参数下的全梯度均值,此时的网络参数为锚点网络参数;随机提取上一步骤中的数据组,并计算其在当前网络参数下和锚点网络参数下的目标Q值和梯度值,将梯度值和全梯度均值带入方差缩减公式实现梯度更新;重复上述步骤直至训练结束,获得最终的Q学习模型,将待测状态输入最终的Q学习模型获得最佳推送结果。其通过将方差缩减技术引入到随机梯度下降的Q学习模型中,提高了强化学习的训练过程的稳定性。
-
公开(公告)号:CN116308640A
公开(公告)日:2023-06-23
申请号:CN202310189788.4
申请日:2023-02-21
IPC分类号: G06Q30/0601 , G06F16/9535
摘要: 一种推荐方法,可以应用于人工智能领域,包括:获取第一特征表示、第二特征表示以及目标信息;第一特征表示和第二特征表示分别对应于用户和物品的属性信息,第一物品为目标供应商提供的物品,目标信息与目标供应商历史上的物品曝光数量有关;根据第一特征表示以及第二特征表示,得到第一推荐分数;根据目标信息,更新推荐分数,得到更新后的第一推荐分数;更新后的第一推荐分数与目标供应商的物品曝光数量负相关;第一推荐分数用于向第一用户进行物品推荐。本申请通过表示供应商的物品曝光数量的信息(目标信息)来调整推荐分数,在每次推荐之后更新目标信息用于下一次推荐过程使用,在考虑供应商的公平性的情况下,实现了在线推荐。
-
公开(公告)号:CN116401398A
公开(公告)日:2023-07-07
申请号:CN202310229317.1
申请日:2023-02-28
IPC分类号: G06F16/635 , G06F16/638 , G06N3/08 , G06N3/0464
摘要: 一种数据处理方法,可以应用于人工智能领域,包括:获取第一序列信息;第一序列信息包括用户发生过交互的多个对象的信息;用户与多个对象中的第二对象之间的交互方式为被动交互;根据第一神经网络,处理第一序列信息,得到用户对第二对象进行交互时的注意力预测值;根据用户的信息以及第二对象的信息,通过推荐模型,得到用户与第二对象对应的推荐信息;根据推荐信息和注意力预测值确定第一损失,其中,注意力预测值在确定第一损失时融合至与第二对象对应的损失项。本申请将预测到的用户注意力与下游推荐任务的损失函数中被动交互样本对应的损失项进行融合(例如加权,从而减少被动交互产生的样本的噪声影响。
-
公开(公告)号:CN112085524A
公开(公告)日:2020-12-15
申请号:CN202010896316.9
申请日:2020-08-31
摘要: 本发明涉及一种基于Q学习模型的结果推送方法和系统,包括以下步骤:将状态st、推送结果at,下一状态st+1和奖励值rt+1组成一个数据组,并将其存储至经验池D中;从经验池D中提取若干数据组,计算网络参数下的全梯度均值,此时的网络参数为锚点网络参数;随机提取上一步骤中的数据组,并计算其在当前网络参数下和锚点网络参数下的目标Q值和梯度值,将梯度值和全梯度均值带入方差缩减公式实现梯度更新;重复上述步骤直至训练结束,获得最终的Q学习模型,将待测状态输入最终的Q学习模型获得最佳推送结果。其通过将方差缩减技术引入到随机梯度下降的Q学习模型中,提高了强化学习的训练过程的稳定性。
-
公开(公告)号:CN115048560B
公开(公告)日:2024-09-13
申请号:CN202210326504.7
申请日:2022-03-30
IPC分类号: G06F16/9035 , G06F16/909 , G06F18/25 , G06F18/22 , G06N3/0442 , G06N3/084
摘要: 本申请公开了一种数据处理方法,可以应用于人工智能领域,方法包括:获取操作日志,操作日志包括用户在第一推荐场景中的第一操作数据;根据第一操作数据,分别通过第一特征提取网络和第二特征提取网络,得到第一特征表示和第二特征表示;根据第一特征表示,通过任务网络,得到第一倾向性信息和第二倾向性信息,并第一门控网络的第一权重和第二权重,对第一倾向性信息和第二倾向性信息进行融合,以得到第一目标倾向性信息。本申请可以降低不同推荐场景之间的干扰,进而解决多场景联合建模的情况下,单任务模型受数据之间分布不同的影响,所导致的预测准确性下降的问题。
-
公开(公告)号:CN115374362A
公开(公告)日:2022-11-22
申请号:CN202211064264.4
申请日:2022-09-01
IPC分类号: G06F16/9535 , G06F16/33 , G06N3/08
摘要: 一种多路召回模型训练方法、多路召回方法、装置及电子设备,涉及人工智能技术领域。多路召回模型包括M个单路召回模型,该训练方法包括获取多组训练数据,每组训练数据包括检索词对应的目标正样本和多个负样本;通过第M‑1个单路召回模型获取各组训练数据中所有样本的相关性分数,然后根据该相关性分数以及第一损失函数进行数据拟合,确定第M个单路召回模型的第一期望召回结果,第一损失函数用于确定第M‑1个单路召回模型的损失;根据第一期望召回结果及第二损失函数,确定第M个单路召回模型的损失;以该损失最小为目标,训练第M个单路召回模型。这样使得第M个单路召回模型能够尽可能弥补第M个模型的损失,以提升多路召回模型的整体召回效果。
-
-
-
-
-
-
-
-
-