-
公开(公告)号:CN111260040A
公开(公告)日:2020-06-09
申请号:CN202010370070.1
申请日:2020-05-06
Applicant: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)
Abstract: 本发明提供了一种基于内在奖励的视频游戏决策方法,包括以下步骤:S1、获取视频游戏模拟环境;S2、构建神经网络模型;S3、设计内在奖励模型;S4、将内在奖励模型与构建的神经网络模型结构结合;S5、通过模拟环境获取游戏的记录;S6、通过获取的游戏记录,更新神经网络模型;S7、循环训练神经网络模型直至收敛。本发明的有益效果是:较好的解决了三维场景中较为常见的缺乏环境反馈奖励值的问题。
-
公开(公告)号:CN118246556A
公开(公告)日:2024-06-25
申请号:CN202410668413.0
申请日:2024-05-28
Applicant: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)
IPC: G06N5/04 , G06N3/0455 , G06N3/0499 , G06N3/092 , G06F16/35 , G06F8/41
Abstract: 本发明公开了一种基于强化学习的类型推断方法及装置,包括:获取运行环境数据和代码数据,并对所述运行环境数据和所述代码数据进行预处理,得到合法类型序列及类型流序列;根据所述合法类型序列及所述类型流序列,进行带类型标注的代码生成任务的监督训练;根据生成的带类型标注的目标代码,进行静态反馈的强化学习训练,得到强化后的代码生成模型。本发明提出了使用基于生成的方法来预测类型,并通过强化学习来增强生成模型的类型预测的准确性,解决了现有的类型推断模型的预测结果与实际应用偏差较大的问题。
-
公开(公告)号:CN117035074B
公开(公告)日:2024-02-13
申请号:CN202311286288.9
申请日:2023-10-08
Applicant: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)
Abstract: 本发明公开了一种基于反馈强化的多模态知识生成方法及装置,包括:构建多模态模型,在多模态知识生成任务中将人类反馈引入所述多模态模型,形成的监督数据用于训练预先设立的奖励回报模型;将所述监督数据输入奖励回报模型进行训练,使得奖励回报模型从所述监督数据中学习到人类的理解;利用内外探索相结合的强化学习方法微调所述多模态模型,使得多模态模型能够学习到人类偏好,生成更自然的知识;本发明具有人类反馈知识的强化学习方法应用于多模态知识生成任务中,解决了多模态知识生成任务缺乏人类反馈监督的不足,并引入基于内外探索相结合的强化学习微调技术,有效缓解多奖励稀疏问题。
-
公开(公告)号:CN115622684A
公开(公告)日:2023-01-17
申请号:CN202211433166.3
申请日:2022-11-16
Applicant: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) , 暨南大学
Abstract: 本发明公开了一种基于全同态加密的隐私计算异构加速方法及装置,本发明从内存和指令两个层级对全同态加密算法进行优化,根据计算负载动态调配GPU中的Block块,将计算量过大的任务拆小,计算量小的任务合并变大,控制结果合并过程中的访存竞争。利用GPU中的内存层次结构,减少SM上同时分配的访存量大的任务数,分配更多的共享内存提升内存命中率,减少与全局内存的通信;设计异构计算流:从时间上和空间上,共享有限的硬件资源。本发明在GPU中实现NTT/INTT算法的挑战是高效地分配线程以实现高利用率,为了获得最佳性能,所有线程都应该是繁忙的,每个线程的工作负载应该是相等的。
-
公开(公告)号:CN115601960A
公开(公告)日:2023-01-13
申请号:CN202211122126.7
申请日:2022-09-15
Applicant: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)(CN)
Abstract: 本发明公开了一种基于图对比学习的多模态交通流量预测方法及系统,方法包括:基于历史交通流量数据建立局部和全局流量异构图;对全局和局部流量异构图进行编码得到对应的异构图流量特征;计算局部流量异构图流量特征的互信息来优化局部流量异构图流量特征;多个局部流量异构图流量特征经过注意力机制融合成的全局流量特征,与全局流量异构图流量特征进行图对比学习来优化全局流量异构图流量特征;将优化后的局部和全局流量异构图流量特征输入到空间图卷积神经网络分别预测多模态的交通流量。本发明可以有效地捕获不同出行模式之间的相关性和差异性,有助于更好地捕获多种出行模式之间的依赖关系,从而提升交通流量预测的精度。
-
公开(公告)号:CN114756694B
公开(公告)日:2022-10-14
申请号:CN202210677070.5
申请日:2022-06-16
Applicant: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) , 平安科技(深圳)有限公司
Abstract: 本发明提供的一种基于知识图谱的推荐系统、推荐方法和相关设备,系统包括:用户历史信息嵌入模块根据用户的历史交互行为生成用户表征;知识感知嵌入模块利用知识感知的注意力机制,为用户和物品生成知识加权表征;动态信息共享模块基于神经网络,根据用户物品交互的二部图以及物品侧的知识图谱得到用户/物品热门种子,计算每个用户/物品与用户/物品热门种子的相似度,根据相似度共享用户/物品热门种子的动态表征;将知识加权表征和所述动态表征进行聚合,得到每个用户和物品的最终表征并进行点积获得最后的预测值。本发明将各用户/物品与其相似的热门用户/物品进行动态的信息共享,缓解了用户侧和物品侧的冷启动问题。
-
公开(公告)号:CN114756694A
公开(公告)日:2022-07-15
申请号:CN202210677070.5
申请日:2022-06-16
Applicant: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) , 平安科技(深圳)有限公司
Abstract: 本发明提供的一种基于知识图谱的推荐系统、推荐方法和相关设备,系统包括:用户历史信息嵌入模块根据用户的历史交互行为生成用户表征;知识感知嵌入模块利用知识感知的注意力机制,为用户和物品生成知识加权表征;动态信息共享模块基于神经网络,根据用户物品交互的二部图以及物品侧的知识图谱得到用户/物品热门种子,计算每个用户/物品与用户/物品热门种子的相似度,根据相似度共享用户/物品热门种子的动态表征;将知识加权表征和所述动态表征进行聚合,得到每个用户和物品的最终表征并进行点积获得最后的预测值。本发明将各用户/物品与其相似的热门用户/物品进行动态的信息共享,缓解了用户侧和物品侧的冷启动问题。
-
公开(公告)号:CN116226662B
公开(公告)日:2024-02-09
申请号:CN202310012741.0
申请日:2023-01-05
Applicant: 哈尔滨工业大学(深圳)
IPC: G06F18/214 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种多智能体协同强化学习方法、终端及存储介质,方法包括:获取环境参数,构造模拟环境,并根据环境参数以及智能体数目确定学习者智能体;根据任务需求构造对应数量的工作者智能体,并根据任务需求构造对应数量的行动者智能体;其中,每个工作者智能体用于与多个行动者智能体进行交互,每个行动者智能体分别与一个独立的模拟环境交互;获取样本数据,根据样本数据对学习者智能体进行训练,得到训练后的模型参数;通过学习者智能体定期将训练后的模型参数更新到共享内存中,并通过工作者智能体定期从共享内存中更新决策网络的参数,得到强化学习后的策略。本发明提高了多智能体的强化学习过程中的样本利用率及样本数量。
-
公开(公告)号:CN116226662A
公开(公告)日:2023-06-06
申请号:CN202310012741.0
申请日:2023-01-05
Applicant: 哈尔滨工业大学(深圳)
IPC: G06F18/214 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种多智能体协同强化学习方法、终端及存储介质,方法包括:获取环境参数,构造模拟环境,并根据环境参数以及智能体数目确定学习者智能体;根据任务需求构造对应数量的工作者智能体,并根据任务需求构造对应数量的行动者智能体;其中,每个工作者智能体用于与多个行动者智能体进行交互,每个行动者智能体分别与一个独立的模拟环境交互;获取样本数据,根据样本数据对学习者智能体进行训练,得到训练后的模型参数;通过学习者智能体定期将训练后的模型参数更新到共享内存中,并通过工作者智能体定期从共享内存中更新决策网络的参数,得到强化学习后的策略。本发明提高了多智能体的强化学习过程中的样本利用率及样本数量。
-
公开(公告)号:CN114048833A
公开(公告)日:2022-02-15
申请号:CN202111303688.7
申请日:2021-11-05
Applicant: 哈尔滨工业大学(深圳)
Abstract: 本发明公开了一种基于神经网络虚拟自我对局的多人、大规模非完全信息博弈方法及装置,本发明在传统的神经网络虚拟自我对局NFSP算法的基础上引入了优先级经验采样机制和优先级加权的程度控制机制,根据经验片段的学习价值设置优先级来过滤记忆库中的经验,对于优先经验的存储和采样,采用求和树的数据结构,以时间复杂度实现优先级经验采样,降低NFSP训练过程中与环境交互的代价,加快求解速度;同时使用马尔科夫决策过程对扩展式博弈进行建模,将多人博弈转化成单个智能体与环境的交互过程,可看作单个智能体和环境的二人博弈,将NFSP的应用范围拓展至多人博弈,增强算法的泛用性。
-
-
-
-
-
-
-
-
-