一种信息推荐方法、装置、设备及计算机可读存储介质

    公开(公告)号:CN113761355A

    公开(公告)日:2021-12-07

    申请号:CN202110481331.1

    申请日:2021-04-30

    摘要: 本申请提供了一种信息推荐方法、装置、设备及计算机可读存储介质;涉及人工智能技术,方法包括:通过原始推荐模型进行信息推荐,获得推荐实例序列对应的反馈信息序列,反馈信息序列中的每条反馈信息包括延迟反馈奖励;获取推荐实例序列中的每个推荐实例对应的反馈修正参数,反馈修正参数与当前收到每个推荐实例的延迟反馈的概率负相关、以及与最终收到每个推荐实例的延迟反馈的概率正相关;基于反馈修正参数,对每个推荐实例对应的延迟反馈奖励进行修正,从而获得与推荐实例序列对应的修正后的反馈信息序列;基于推荐实例序列和修正后的反馈信息序列,更新原始推荐模型,获得推荐模型。通过本申请,能够提升信息推荐的准确度。

    一种模型的训练方法、数据处理方法以及相关设备

    公开(公告)号:CN116088717A

    公开(公告)日:2023-05-09

    申请号:CN202211634650.2

    申请日:2022-12-19

    摘要: 本申请实施例公开一种模型的训练方法、数据处理方法以及相关设备,该方法可用于人工智能领域中,方法包括:将训练样本输入第一模型,得到第一预测信息和第二预测信息,根据第一预测信息和第二预测信息生成第一信息,第一预测信息指示用户对第一对象进行交互的第一概率,第一信息指示用户对第一对象进行交互的第二概率,根据第一损失函数对第一模型进行训练;在应用阶段,利用训练后的第一模型得到第一预测信息,而在训练阶段,第一损失函数指示第一信息和观测信息(也即观测到用户是否与第一对象交互)之间的相似度,也即已经假定了该观测信息是存在偏差的,因此,该第一预测信息更能够反映用户对对象的喜好程度。

    一种基于奖励修正的去除注意力偏差的流式音乐推荐方法

    公开(公告)号:CN115309936A

    公开(公告)日:2022-11-08

    申请号:CN202210949277.3

    申请日:2022-08-09

    摘要: 本发明通过网络安全领域的方法,实现了一种基于奖励修正的去除注意力偏差的流式音乐推荐方法。方法的核心包含三个模块:奖励修正模型、注意力预测模块、相关性预测模块。奖励修正模块通过重要性采样的方法,结合预测的用户注意力和相关性来获得修正后无偏的奖励;注意力预测模块建模了用户对每一首歌的注意力的概率;相关性预测模块用来预测用户对每一首候选歌曲的偏好,并基于修正后的奖励进行参数更新。本发明以此来消除用户反馈中的注意力偏差获得无偏的奖励并提升模型预测的准确性。

    一种数据处理方法及相关装置

    公开(公告)号:CN115048560A

    公开(公告)日:2022-09-13

    申请号:CN202210326504.7

    申请日:2022-03-30

    摘要: 本申请公开了一种数据处理方法,可以应用于人工智能领域,方法包括:获取操作日志,操作日志包括用户在第一推荐场景中的第一操作数据;根据第一操作数据,分别通过第一特征提取网络和第二特征提取网络,得到第一特征表示和第二特征表示;根据第一特征表示,通过任务网络,得到第一倾向性信息和第二倾向性信息,并第一门控网络的第一权重和第二权重,对第一倾向性信息和第二倾向性信息进行融合,以得到第一目标倾向性信息。本申请可以降低不同推荐场景之间的干扰,进而解决多场景联合建模的情况下,单任务模型受数据之间分布不同的影响,所导致的预测准确性下降的问题。

    排序模型训练方法、装置及存储介质

    公开(公告)号:CN118786425A

    公开(公告)日:2024-10-15

    申请号:CN202280089427.6

    申请日:2022-01-29

    IPC分类号: G06F16/9538

    摘要: 本申请涉及一种排序模型训练方法、装置及存储介质,所述方法包括:根据日志数据,确定第一训练集;根据所述第一训练集中各个第一样本的位置信息,确定所述各个第一样本的逆倾向性得分;根据与所述各个参考查询词对应的未被用户观测的查询结果,确定第二训练集;根据所述第一训练集、所述逆倾向性得分及所述第二训练集,训练排序模型,所述排序模型用于预测查询词与查询结果之间的相关性。本申请的实施例能够同时消除选择偏置及位置偏置对排序模型的影响,从而得到无偏的排序模型。

    一种基于奖励插补的流式优惠券推荐方法

    公开(公告)号:CN117934074A

    公开(公告)日:2024-04-26

    申请号:CN202410059157.5

    申请日:2024-01-16

    IPC分类号: G06Q30/0207 G06Q30/0214

    摘要: 本发明通过互联网技术领域的方法,实现了一种基于奖励插补的流式推荐方法。系统从多个候选中给用户发放一个优惠券,随后观察用户是否会消费该优惠券并更新模型对应的参数为了得知其余选项的反馈,而由于优惠券推荐系统中的用户量达百万级,直接采用上下文批量赌博机(CBB)进行在线推荐的过程难以保证优惠券发放的实时性,这需要高效的用户奖励反馈插补实时扩充训练数据,并基于矩阵略图方法实现优惠券推荐的低资源消耗,达到节省网络资源、降低计算资源开销的目的。方案充分利用了多臂赌博机中的部分反馈机制,对奖励进行插补,使得算法效果有显著提升;其次引入了矩阵略图的方法,使得算法在保持较好的效果的同时,效率也得到显著提升。

    一种视频评估方法及其相关设备
    7.
    发明公开

    公开(公告)号:CN117061733A

    公开(公告)日:2023-11-14

    申请号:CN202310885569.X

    申请日:2023-07-18

    摘要: 本申请公开了一种视频评估方法及其相关设备,可对多个视频进行准确的评估,从而准确得到用户对多个视频的感兴趣程度。本申请的方法包括:获取第一视频组,第一视频组包含多个第一视频;对多个第一视频的观看时长进行处理,得到第一视频组的参数,第一视频组的参数用于指示多个第一视频的观看时长的偏置和多个第一视频的观看时长的噪声;基于第一视频组的参数以及多个第一视频的观看时长,获取多个第一视频的评估值,多个第一视频的评估值用于指示用户对多个第一视频的感兴趣程度。

    一种基于Q学习模型的结果推送方法和系统

    公开(公告)号:CN112085524B

    公开(公告)日:2022-11-15

    申请号:CN202010896316.9

    申请日:2020-08-31

    摘要: 本发明涉及一种基于Q学习模型的结果推送方法和系统,包括以下步骤:将状态st、推送结果at,下一状态st+1和奖励值rt+1组成一个数据组,并将其存储至经验池D中;从经验池D中提取若干数据组,计算网络参数下的全梯度均值,此时的网络参数为锚点网络参数;随机提取上一步骤中的数据组,并计算其在当前网络参数下和锚点网络参数下的目标Q值和梯度值,将梯度值和全梯度均值带入方差缩减公式实现梯度更新;重复上述步骤直至训练结束,获得最终的Q学习模型,将待测状态输入最终的Q学习模型获得最佳推送结果。其通过将方差缩减技术引入到随机梯度下降的Q学习模型中,提高了强化学习的训练过程的稳定性。

    基于沃瑟斯坦距离正则化的查询-文档匹配方法和系统

    公开(公告)号:CN111552774A

    公开(公告)日:2020-08-18

    申请号:CN202010331650.X

    申请日:2020-04-24

    摘要: 本发明涉及一种基于沃瑟斯坦距离正则化的查询-文档匹配方法和系统,该系统包含:特征投影模块、匹配模块和正则项模块;所述特征投影模块用于将输入的查询文本和文档标题文本映射成蕴含语义信息的查询向量和文档标题向量,并发送到所述正则项模块和匹配模块;所述正则项模块用于计算查询向量所属分布和文档标题向量所属分布的沃瑟斯坦距离,并发送到所述匹配模块;所述匹配模块用于根据查询向量和文档标题向量以及查询向量所属分布和文档标题向量所属分布的沃瑟斯坦距离,计算出查询文本和文档标题文本最后的匹配结果。本发明可以广泛应用于数据查询领域。