一种基于对比表征的跨域离线强化学习方法及装置

    公开(公告)号:CN118503694A

    公开(公告)日:2024-08-16

    申请号:CN202410361180.X

    申请日:2024-03-27

    Abstract: 本发明公开了一种基于对比表征的跨域离线强化学习方法及装置,涉及强化学习领域。解决现有跨域离线强化学习方法存在确定给定有限目标域数据时,显式估计动态模型存在误差以及域分类器并不能平滑地估计动态偏差,可能会导致无界问题。包括:根据从目标域数据集中采样的正样本、从源域数据集中采样的负样本和所述第一互信息得到对比学习目标;根据所述简化学习目标对状态动作编码器和后续状态编码器进行优化,得到基于分数函数和两编码器点积表示的信息密度;根据所述信息密度得到数据过滤函数,根据所述数据过滤函数对所述源域数据集进行过滤,得到提取样本,将所述提取样本和所述目标域数据集数据输入离线强化学习模型对价值函数进行优化。

    一种基于提示学习的三阶段任意文本风格迁移方法

    公开(公告)号:CN118586361A

    公开(公告)日:2024-09-03

    申请号:CN202410337623.1

    申请日:2024-03-23

    Abstract: 本发明公开了一种基于提示学习的三阶段任意文本风格迁移方法,由编辑区域获取阶段、掩蔽序列的有效性验证阶段以及风格信息填充阶段组成。1)编辑区域获取阶段。该阶段用于获取输入文本的编辑区域。在该阶段,模型将识别风格词并对其进行掩码,以获得掩蔽序列。2)掩蔽序列的有效性验证阶段。该阶段对从上一阶段获得的掩蔽序列进行有效性验证,以确保编辑区域的有效性。3)风格信息填充阶段。此阶段模型将基于用户指定的任意目标风格生成最终输出。本发明方法将TST任务转换为文本填充任务以应对自回归方式造成的误差累积,引导LLM在特定语义区域内编辑少量文本即可实现TST,这种方式可增强模型的可控性、稳定性和可解释性。

    一种基于技能发现与分配的多智能体强化学习方法及装置

    公开(公告)号:CN117828477A

    公开(公告)日:2024-04-05

    申请号:CN202410032637.2

    申请日:2024-01-09

    Inventor: 王震 李彤 白辰甲

    Abstract: 本发明公开了一种基于技能发现与分配的多智能体强化学习方法及装置,涉及多智能体强化学习领域。能够解决现有技术中因参数共享导致智能体之间的行为同质化的问题,增强智能体行为的多样性,从而更好的适应需要复杂协调的任务场景,该方法包括:根据参数化的神经网络和每个智能体的观测潜变量得到技能集合包括的每个技能的技能概率;根据下一个时间段智能体待执行的技能、当前时间段智能体的观测潜变量和当前时间段智能体的技能策略得到当前时间段智能体的总价值函数;根据当前时间段智能体的内在奖励、当前时间段智能体的总价值函数、下一个时间段智能体的总价值函数得到智能体的损失函数。

    一种离线策略到在线学习迁移的强化学习方法及装置

    公开(公告)号:CN117829254A

    公开(公告)日:2024-04-05

    申请号:CN202311853724.6

    申请日:2023-12-28

    Abstract: 本发明公开了一种离线策略到在线学习迁移的强化学习方法及装置,涉及强化学习领域。包括:向离线数据集状态空间内添加扰动构建扰动样本集,对所述扰动样本集进行状态采样和动作采样,得到状态动作函数对;最小化离线数据集合所述扰动样本集之间的值函数差距,得到平滑损失函数;基于离线数据集包括的状态转移元组集合,通过贝尔曼算子确定值函数的学习目标以及值函数的损失函数;基于不确定性估计确定状态动作函数对和值函数的伪贝尔曼算子的不确定损失函数;根据平滑损失函数、值函数的损失函数和不确定损失函数得到值函数的总损失函数;基于策略损失和策略网络函数,得到策略学习的总损失函数。

    一种短视频发布信息检测方法、系统、设备及介质

    公开(公告)号:CN119031185B

    公开(公告)日:2025-03-04

    申请号:CN202411505579.7

    申请日:2024-10-28

    Abstract: 本发明公开一种短视频发布信息检测方法、系统、设备及介质,涉及人工智能与社交网络技术领域,该方法包括:采集短视频信息数据,提取短视频数据的多模态特征;将多模态特征融合,得到短视频特征的统一表示;抽取短视频关键帧;利用大型视觉-语言模型,从视频风格、视频内容和信息匹配的角度判别短视频的真实性,生成对应的推理依据和置信度等级;对推理依据与短视频特征进行交互增强;根据置信度等级评估不同推理依据的重要度;基于重要度聚合增强后的短视频特征与推理依据,得到用于最终分类的特征;该方法捕捉不同模态间的相互关系和补充信息,加强了视频信息检测器对辅助信息的感知,提高了检测准确度。

    基于事件触发的大规模分布式纳什均衡搜索方法和系统

    公开(公告)号:CN119476495A

    公开(公告)日:2025-02-18

    申请号:CN202411688190.0

    申请日:2024-11-25

    Abstract: 本发明公开了一种基于事件触发的分布式纳什均衡搜索方法和系统,旨在解决大规模动态非合作系统中的复杂决策问题。通过构造无向图模型,定义网络参与者及其通信关系,结合网络平均场博弈理论,实现个体与群体行为的宏观交互。该方法引入三个辅助变量,在线动态估计群体聚集行为,并通过自适应学习增益优化邻居间的通信权重,以降低计算和通信成本。本发明还采用事件触发机制,有效控制信息交换时机,避免不必要的通信开销。通过这种方式,玩家能够在不完全信息的情况下实现无领导者共识和局部目标函数的优化,显著提高决策效率和系统的可扩展性。适用于各类大规模复杂网络场景。

    一种像素点引导的黑盒攻击方法及装置

    公开(公告)号:CN119250158A

    公开(公告)日:2025-01-03

    申请号:CN202411772259.8

    申请日:2024-12-04

    Abstract: 本发明公开了一种像素点引导的黑盒攻击方法及装置,涉及无人机反制领域。用以解决当前在黑盒攻击下对抗样本生成方法过多依赖模型,缺乏关键语义定位,容易造成冗余扰动和非必要的像素篡改,导致查询次数较高以及攻击成功率较低的问题。包括:根据自适应粒子群优化APSO算法,确定干净样本中的关键像素点和与关键像素点对应的掩码矩阵;根据干净样本识别标签与目标图像识别标签之间的差异,通过PID控制器得到控制目标图像对抗扰动生成的关键参数,根据关键参数和掩码矩阵得到被篡改的对抗样本以及被篡改对抗样本第一识别标签;根据被篡改对抗样本第一识别标签与目标图像识别标签之间的差异,得到对抗攻击优化模型以及最优对抗攻击样本。

Patent Agency Ranking