一种基于对比表征的跨域离线强化学习方法及装置

    公开(公告)号:CN118503694A

    公开(公告)日:2024-08-16

    申请号:CN202410361180.X

    申请日:2024-03-27

    摘要: 本发明公开了一种基于对比表征的跨域离线强化学习方法及装置,涉及强化学习领域。解决现有跨域离线强化学习方法存在确定给定有限目标域数据时,显式估计动态模型存在误差以及域分类器并不能平滑地估计动态偏差,可能会导致无界问题。包括:根据从目标域数据集中采样的正样本、从源域数据集中采样的负样本和所述第一互信息得到对比学习目标;根据所述简化学习目标对状态动作编码器和后续状态编码器进行优化,得到基于分数函数和两编码器点积表示的信息密度;根据所述信息密度得到数据过滤函数,根据所述数据过滤函数对所述源域数据集进行过滤,得到提取样本,将所述提取样本和所述目标域数据集数据输入离线强化学习模型对价值函数进行优化。

    一种基于提示学习的三阶段任意文本风格迁移方法

    公开(公告)号:CN118586361A

    公开(公告)日:2024-09-03

    申请号:CN202410337623.1

    申请日:2024-03-23

    摘要: 本发明公开了一种基于提示学习的三阶段任意文本风格迁移方法,由编辑区域获取阶段、掩蔽序列的有效性验证阶段以及风格信息填充阶段组成。1)编辑区域获取阶段。该阶段用于获取输入文本的编辑区域。在该阶段,模型将识别风格词并对其进行掩码,以获得掩蔽序列。2)掩蔽序列的有效性验证阶段。该阶段对从上一阶段获得的掩蔽序列进行有效性验证,以确保编辑区域的有效性。3)风格信息填充阶段。此阶段模型将基于用户指定的任意目标风格生成最终输出。本发明方法将TST任务转换为文本填充任务以应对自回归方式造成的误差累积,引导LLM在特定语义区域内编辑少量文本即可实现TST,这种方式可增强模型的可控性、稳定性和可解释性。

    一种基于技能发现与分配的多智能体强化学习方法及装置

    公开(公告)号:CN117828477A

    公开(公告)日:2024-04-05

    申请号:CN202410032637.2

    申请日:2024-01-09

    发明人: 王震 李彤 白辰甲

    摘要: 本发明公开了一种基于技能发现与分配的多智能体强化学习方法及装置,涉及多智能体强化学习领域。能够解决现有技术中因参数共享导致智能体之间的行为同质化的问题,增强智能体行为的多样性,从而更好的适应需要复杂协调的任务场景,该方法包括:根据参数化的神经网络和每个智能体的观测潜变量得到技能集合包括的每个技能的技能概率;根据下一个时间段智能体待执行的技能、当前时间段智能体的观测潜变量和当前时间段智能体的技能策略得到当前时间段智能体的总价值函数;根据当前时间段智能体的内在奖励、当前时间段智能体的总价值函数、下一个时间段智能体的总价值函数得到智能体的损失函数。

    一种离线策略到在线学习迁移的强化学习方法及装置

    公开(公告)号:CN117829254A

    公开(公告)日:2024-04-05

    申请号:CN202311853724.6

    申请日:2023-12-28

    IPC分类号: G06N3/092 G06N3/096

    摘要: 本发明公开了一种离线策略到在线学习迁移的强化学习方法及装置,涉及强化学习领域。包括:向离线数据集状态空间内添加扰动构建扰动样本集,对所述扰动样本集进行状态采样和动作采样,得到状态动作函数对;最小化离线数据集合所述扰动样本集之间的值函数差距,得到平滑损失函数;基于离线数据集包括的状态转移元组集合,通过贝尔曼算子确定值函数的学习目标以及值函数的损失函数;基于不确定性估计确定状态动作函数对和值函数的伪贝尔曼算子的不确定损失函数;根据平滑损失函数、值函数的损失函数和不确定损失函数得到值函数的总损失函数;基于策略损失和策略网络函数,得到策略学习的总损失函数。

    一种策略迭代算法及装置
    6.
    发明公开

    公开(公告)号:CN118657170A

    公开(公告)日:2024-09-17

    申请号:CN202411089847.1

    申请日:2024-08-09

    IPC分类号: G06N3/006 G06N5/04

    摘要: 本发明公开了一种策略迭代算法及装置,涉及多智能体技术领域,用以解决现有涉及多个智能体之间协作与切换时,因拓扑关系无法修改导致团队协作无法体现的问题。该算法包括:根据追踪器在第#imgabs0#步的第一状态、逃避器在第#imgabs1#步的第一状态、在第#imgabs2#步的状态改变量得到追踪器在第#imgabs3#步的更新状态和逃避器在第#imgabs4#步的更新状态;根据追踪器在第#imgabs5#步的更新状态和逃避器在第#imgabs6#步的更新状态确定追踪器与逃避器之间的第一距离,若第一距离满足交换公式,则根据交换公式对所述第一距离对应的边权进行交换,并更新邻接矩阵;若更新系统价值函数第一系统价值函数的差值绝对值小于错误阈值,将第#imgabs7#步的更新控制策略确定为最终控制策略。

    一种工控协议模糊测试方法及系统

    公开(公告)号:CN118612125A

    公开(公告)日:2024-09-06

    申请号:CN202410664975.8

    申请日:2024-05-27

    摘要: 本发明公开了一种工控协议模糊测试方法及系统,该方法包括:步骤S1:获取待测工控协议、目标端口、原始数据以及测试工具;步骤S2:测试目标端口能否连通,并记录测试结果;步骤S3:根据原始数据修改变异种子报文,并生成目标测试代码,测试代码包含目标端口和自动创建的测试结果存放的文件及目录;步骤S4:根据测试代码异步执行模糊测试,并记录实时测试日志;步骤S5:根据测试日志通过前端动态展示测试过程,输出模糊测试结果。以解现有技术中存在的使用门槛高、配置复杂以及直观性、集成性和用户友好性方面存在不足的技术问题。

    一种跨平台的社交网络溯源方法
    8.
    发明公开

    公开(公告)号:CN118396768A

    公开(公告)日:2024-07-26

    申请号:CN202410596299.5

    申请日:2024-05-14

    摘要: 本发明提供了一种跨平台的社交网络溯源方法;包括:收集Twitter和Weibo两个平台的传播数据;根据传播数据构建有向无环图;构造每一个平台的历史关系网络;构造每一个平台下用户的传播特征;修正信息聚合过程中邻居的特征权重;对时序数据进行传播源预测;使用基于指数采样的变分自编码器生成用户的决策空间分布;使用基于双通道的KL散度约束两个平台具有相似影响力的用户;输出概率最高的节点为预测源;本发明设计15个传播特征,综合考虑了用户行为、网络结构和动态传播特征,显著增强了对现实场景下用户的表示质量;不仅提高了源定位的准确性,也为理解复杂网络中的信息传播机制提供了新的工具,提升在处理真实世界数据时的有效性和适应性。

    一种基于图神经架构搜索的知识图谱关系预测方法

    公开(公告)号:CN118396097A

    公开(公告)日:2024-07-26

    申请号:CN202410626600.2

    申请日:2024-05-20

    摘要: 本申请涉及智能方法和图计算技术领域,公开了一种基于图神经架构搜索的知识图谱关系预测方法,包括:判断是否确定图网络的最优预测网络架构;若没有,初始化超网权重,均匀采样路径进行超网训练,超网拆分为多个子超网,子超网分别进行权重训练,架构搜索确定最优网络架构;若有,初始化图网络权重,确定传播范围和函数架构,计算传播范围的嵌入表示,利用分类器预测节点关系。本申请方法使得信息在图网络中的传播更加准确和高效,从而提高图网络中节点关系预测的准确率。

    一种基于启发式信息搜索的知识图谱链接预测方法

    公开(公告)号:CN117973517A

    公开(公告)日:2024-05-03

    申请号:CN202410025861.9

    申请日:2024-01-08

    摘要: 本发明提供了一种基于启发式信息搜索的知识图谱链接预测方法;包括:计算知识图谱中网络节点的全局与局部启发式信息;初始化超网权重;均匀采样路径进行超网训练;通过架构搜索确定最优网络架构;最优网络架构模型微调;加载训练好的图网络模型;通过多层GNN计算节点特征;计算全局与局部启发式特征;节点特征与全局启发式特征进行权重融合;使用解码器进行链接预测。本发明提出了一个利用全局与局部启发式信息进行链接预测的超网模型框架,且设计全局启发式信息选择和局部启发式信息选择的搜索空间,通过单路径单次搜索算法为不同的知识图谱搜索出最佳的GNN架构、最恰当的全局启发式信息与局部启发式信息,从而提高知识图谱链接预测的准确率。