文献检索方法、系统、计算机设备和存储介质

    公开(公告)号:CN119862276A

    公开(公告)日:2025-04-22

    申请号:CN202510338108.X

    申请日:2025-03-21

    Abstract: 本申请涉及一种文献检索方法、系统、计算机设备和存储介质,方法包括:提取训练数据的特征数据;构建至少一个优化损失函数,包括:根据特征域相同的特征数据之间的距离构建第一损失函数;根据特征域不同的特征数据之间的距离构建第二损失函数;将特征数据、扰动的特征数据输入编码器得到的第一压缩特征和第二压缩特征,根据第一压缩特征和第二压缩特征之间的距离构建第三损失函数;根据预测模型预测得到点击率的预测值、对应的真实值构建基础损失函数;根据至少一个优化损失函数和基础损失函数调整预测模型的参数;基于调整参数后的预测模型预测得到与目标用户请求关联的候选文献的点击率。采用本方法能够提高用户对文献点击率预测的准确性。

    基于值分布的多智能体协同控制方法、装置、设备和介质

    公开(公告)号:CN118627535A

    公开(公告)日:2024-09-10

    申请号:CN202410879988.7

    申请日:2024-07-02

    Abstract: 本申请涉及一种基于值分布的多智能体协同控制方法、装置、设备和介质,方法包括:构建每个智能体的初始价值网络和多个智能体的初始分布混合网络;基于各智能体的采样数据,对初始分布混合网络和各智能体的价值网络进行训练,通过最小化全局价值分布的损失函数优化初始分布混合网络以及各智能体的价值网络的网络参数,并满足全局价值分布的期望最大、每个智能体的确定性价值最大的约束关系,得到训练好的各智能体的价值网络;根据自身的观测及训练好的价值网络,各智能体执行各自的最优动作。本申请通过在训练过程中综合考虑全局观测、在执行过程中智能体仅利用局部观测做出最优决策方法。

    一种基于自监督强化学习的即时奖励学习方法

    公开(公告)号:CN117933346A

    公开(公告)日:2024-04-26

    申请号:CN202410339613.1

    申请日:2024-03-25

    Abstract: 本发明公开了一种基于自监督强化学习的即时奖励学习方法,获取高维图像数据集,高维图像数据集中包括若干带有终止状态成功或者失败标识的图像;利用高维图像数据集训练自监督学习模型,得到对应的低维特征;利用高维图像数据带有的终止状态的标识,基于低维特征,得到成功特征和失败特征;利用监督学习方法训练状态转移模型,并利用状态转移模型预测的下一状态信息和两类特征进行比较分类,得到即时奖励;基于即时奖励,利用强化学习方法进行决策。本发明可以减少强化学习方法中奖励的人工设计及标注,使得即时奖励的获取智能化。同时,这种即时奖励学习方法可以扩充强化学习的应用范围,扩展了强化学习框架的实际应用,具有广阔的场景。

    一种训练样本筛选方法及装置
    14.
    发明公开

    公开(公告)号:CN117932335A

    公开(公告)日:2024-04-26

    申请号:CN202410021912.0

    申请日:2024-01-05

    Abstract: 在本说明书提供的一种训练样本筛选方法及装置中,获取待训练的分类模型,通过迭代筛选训练样本进行标注,更新已标注样本池,该已标注样本池用于训练该分类模型,直至分类模型达到收敛条件为止,其中,针对每一迭代过程,通过分类模型确定各训练样本的当前预测概率分布,获取各训练样本的历史预测概率分布,根据历史预测概率分布、当前预测概率分布以及确定的已标注样本池中各类别标注分别对应的训练样本的占比,确定总分值,按照总分值的排序,筛选训练样本进行标注。考虑了训练样本的历史信息以及训练样本为各类别标注的倾向,以及通过总分值进行训练样本的筛选,通用性更高,提高了训练效率。

    基于值分布的多智能体协同控制方法、装置、设备和介质

    公开(公告)号:CN117574949A

    公开(公告)日:2024-02-20

    申请号:CN202410067319.X

    申请日:2024-01-17

    Abstract: 本申请涉及一种基于值分布的多智能体协同控制方法、装置、设备和介质,基于值分布的多智能体协同控制方法包括:构建每个智能体的初始价值网络和多个智能体的初始分布混合网络;基于各所述智能体的采样数据,对所述初始分布混合网络和各所述智能体的初始价值网络进行训练,通过最小化所述全局价值分布的损失函数优化所述分布混合网络以及各所述智能体的价值网络的网络参数,并满足全局价值分布的期望最大、每个智能体的确定性价值最大的约束关系,得到训练好的各所述智能体的价值网络;根据自身的观测及训练好的价值网络,各所述智能体执行各自的所述最优动作,扩展了神经网络表达能力,提高多智能体系统更高效的决策和合作,提升整体性能和效果。

    一种基于自监督强化学习的即时奖励学习方法

    公开(公告)号:CN117933346B

    公开(公告)日:2024-07-23

    申请号:CN202410339613.1

    申请日:2024-03-25

    Abstract: 本发明公开了一种基于自监督强化学习的即时奖励学习方法,获取高维图像数据集,高维图像数据集中包括若干带有终止状态成功或者失败标识的图像;利用高维图像数据集训练自监督学习模型,得到对应的低维特征;利用高维图像数据带有的终止状态的标识,基于低维特征,得到成功特征和失败特征;利用监督学习方法训练状态转移模型,并利用状态转移模型预测的下一状态信息和两类特征进行比较分类,得到即时奖励;基于即时奖励,利用强化学习方法进行决策。本发明可以减少强化学习方法中奖励的人工设计及标注,使得即时奖励的获取智能化。同时,这种即时奖励学习方法可以扩充强化学习的应用范围,扩展了强化学习框架的实际应用,具有广阔的场景。

    地理热点中心识别方法、装置、计算机设备和存储介质

    公开(公告)号:CN117251650B

    公开(公告)日:2024-02-06

    申请号:CN202311547326.1

    申请日:2023-11-20

    Abstract: 本申请涉及一种地理热点中心识别方法、装置、计算机设备和存储介质。所述方法包括:获取网络热点文本数据,所述网络热点文本数据包括未标注样本,将所述未标注样本输入初始标注模型,得到标注地理名称标签的训练样本,将所述标注地理名称标签的训练样本输入初始焦点识别模型,通过设定焦点判定规则,将所述训练样本中符合规则要求的位置信息赋予焦点属性,得到初始地理热点中心,基于所述初始地理热点中心和标准样本集训练所述初始标注模型和初始焦点识别模型,得到目标地理热点中心识别模(56)对比文件WO 2022142123 A1,2022.07.07杨宗亮 等.一种基于地理空间大数据的网络舆情监测软件架构.测绘通报.2017,(第03期),96-100.曾依灵 等.网络热点信息发现研究.通信学报.2007,第28卷(第12期),141-146.王诗童 等.基于LDA模型和聚类算法的城市热点推荐与应用《.智能计算机与应用》.2018,第8卷(第3期),136-139.葛小三 等.数据挖掘支持下的网络热点事件地理可视化研究.河南理工大学学报(自然科学版).2016,第35卷(第05期),655-659.

    一种基于实体对齐所得到的知识图谱进行任务执行的方法

    公开(公告)号:CN117172316A

    公开(公告)日:2023-12-05

    申请号:CN202311126132.4

    申请日:2023-09-01

    Abstract: 本说明书公开了一种基于实体对齐所得到的知识图谱进行任务执行的方法,具体包括:获取包含第一和第二知识图谱的知识图谱对,通过筛选第一知识图谱的实体信息,选取出各目标实体,根据各目标实体和各目标实体的邻接实体,以及各目标实体与第二知识图谱中部分实体的对齐概率确定各目标实体的中心度和不确定度,然后根据各目标实体的中心度和不确定度构建各样本实体对,利用各样本实体对对实体对齐模型进行训练,最后,利用训练后的实体对齐模型对各知识图谱进行实体对齐,并利用实体对齐后的知识图谱执行目标任务。本方法大幅降低了训练过程中的样本标注成本,提高了模型训练过程效率的同时,也显著提高了整体任务执行的效率。

Patent Agency Ranking