-
公开(公告)号:CN110085327A
公开(公告)日:2019-08-02
申请号:CN201910256008.7
申请日:2019-04-01
申请人: 东莞理工学院
摘要: 本发明提供基于注意力机制的多通道LSTM神经网络流感疫情预测方法,属于流行病监测技术领域。本发明首先对数据集中数据进行预处理、标准化、特征选择,将选取的数据分为天气相关数据和流感疫情相关数据两类,生成训练集;然后建立包括注意力机制的多通道LSTM神经网络模型;将训练集数据输入所述模型进行训练,并进行MAPE评估,得到训练好的多通道LSTM神经网络模型;对测试数据进行处理,得到测试集;将测试集数据输入训练好的LSTM神经网络模型中进行测试;最后对测试输出结果进行逆标准化处理,得到流感疫情预测值。本发明解决了现有流感疫情预测技术预测准确率较低的问题。本发明可用于不同区域的流感预测。
-
公开(公告)号:CN110945542A
公开(公告)日:2020-03-31
申请号:CN201880000858.4
申请日:2018-06-29
申请人: 东莞理工学院
IPC分类号: G06Q10/06
摘要: 本发明适用于电力自动化控制技术领域,提供了一种基于智能电网的多智能体深度强化学习代理方法,包括:S1、根据选择的动作得到的奖励计算本次状态下对应的动作标准值对神经网络的参数进行更新;S2、根据消费者和生产者的种类建立“外部竞争,内部合作”的多智能体代理;S3、根据智能体的动作的利润最大化和其他内部智能体的利益设置每个内部智能体的奖励函数。神经网络的输入层可以接受刻画状态的特征的值的直接输入,而Q-table需要将特征值离散化来减小状态空间。
-
公开(公告)号:CN109496318A
公开(公告)日:2019-03-19
申请号:CN201880001586.X
申请日:2018-07-30
申请人: 东莞理工学院
摘要: 本发明涉及数据处理领域,其公开了一种基于深度强化学习的自适应博弈算法,包括如下步骤:(A)获取不同合作程度的策略;(B)生成不同合作程度的策略;(C)检测对手的合作策略;(D)制定不同的应对策略。本发明的有益效果是:利用训练出来的检测器和不同合作程度的策略,将已有的Tit for tat等思想实现运用在sequential social dilemmas中;提高了智能体agent的扩展性;更加直观的获取更优于自身的竞争策略。
-
公开(公告)号:CN109496305A
公开(公告)日:2019-03-19
申请号:CN201880001570.9
申请日:2018-08-01
申请人: 东莞理工学院
IPC分类号: G06F16/9536
摘要: 本发明提供一种连续动作空间上的纳什均衡策略及社交网络舆论演变模型,属于强化学习方法领域。本发明策略包括以下步骤:初始化参数;按一定探索率依正态分布 随机选择一个动作;并执行执行,然后从环境中获取回报;如果智能体执行动作后收到的回报大于当前的累计平均回报,那么 的学习率为 ,反之学习率为 ,根据选定的学习率更新 、方差 、,最后更新累计平均策略 ;如果累计平均策略 收敛,则输出累计平均策略 作为智能体i的最终动作。本发明的有益效果为:在与其它智能体交互的过程中最大化自己的利益,并最终能学习到纳什均衡。
-
公开(公告)号:CN109511277B
公开(公告)日:2023-06-13
申请号:CN201880001580.2
申请日:2018-08-01
申请人: 东莞理工学院
IPC分类号: G06N99/00 , A63F13/847 , A63F13/55
摘要: 本发明提供一种多状态连续动作空间的合作式方法及系统,属于强化学习领域。本发明方法包括如下步骤:对于任意状态集合中的状态,初始化动作集;对于任意状态集合中的状态和动作集中的动作,初始化相关参数;分别在动作集修正层和策略评估更新层构建相应的协作机制,直至智能体i在状态s下的回报收敛。本发明还提供了一种实现所述多状态连续动作空间的合作式方法的系统。本发明的有益效果为:能够很好的处理连续动作空间中多智能体的协作问题。
-
公开(公告)号:CN110945542B
公开(公告)日:2023-05-05
申请号:CN201880000858.4
申请日:2018-06-29
申请人: 东莞理工学院
IPC分类号: G06Q10/06
摘要: 本发明适用于电力自动化控制技术领域,提供了一种基于智能电网的多智能体深度强化学习代理方法,包括:S1、根据选择的动作得到的奖励计算本次状态下对应的动作标准值对神经网络的参数进行更新;S2、根据消费者和生产者的种类建立“外部竞争,内部合作”的多智能体代理;S3、根据智能体的动作的利润最大化和其他内部智能体的利益设置每个内部智能体的奖励函数。神经网络的输入层可以接受刻画状态的特征的值的直接输入,而Q‑table需要将特征值离散化来减小状态空间。
-
公开(公告)号:CN109511277A
公开(公告)日:2019-03-22
申请号:CN201880001580.2
申请日:2018-08-01
申请人: 东莞理工学院
IPC分类号: G06N99/00 , A63F13/847 , A63F13/55
摘要: 本发明提供一种多状态连续动作空间的合作式方法及系统,属于强化学习领域。本发明方法包括如下步骤:对于任意状态集合中的状态,初始化动作集;对于任意状态集合中的状态和动作集中的动作,初始化相关参数;分别在动作集修正层和策略评估更新层构建相应的协作机制,直至智能体i在状态s下的回报收敛。本发明还提供了一种实现所述多状态连续动作空间的合作式方法的系统。本发明的有益效果为:能够很好的处理连续动作空间中多智能体的协作问题。
-
公开(公告)号:CN109496305B
公开(公告)日:2022-05-13
申请号:CN201880001570.9
申请日:2018-08-01
申请人: 东莞理工学院
IPC分类号: G06F16/9536
摘要: 本发明提供一种社交网络舆论演变方法,属于强化学习方法领域。本发明社交网络舆论演变方法包括两类智能体,分别为模拟社交网络中普通大众的Gossiper类智能体和模拟社交网络中以吸引普通大众为目的的媒体或公众人物的Media类智能体,其中,所述Media类智能体采用所述连续动作空间上的纳什均衡策略计算对其回报最优的观念,更新其观念并在社交网络中广播。本发明的有益效果为:在与其它智能体交互的过程中最大化自己的利益,并最终能学习到纳什均衡。
-
公开(公告)号:CN110081893A
公开(公告)日:2019-08-02
申请号:CN201910255926.8
申请日:2019-04-01
申请人: 东莞理工学院
摘要: 一种基于策略重用和强化学习的导航路径规划方法,它属于导航路径规划技术领域。本发明解决了现有方法对源策略的重用不充分的问题。本发明引入表示状态重要性的函数来辅助策略选择、策略重用以及策略库重构,实现了在路网地图中快速规划导航路径的目的。相比较于现有传统路径规划方法,本发明的算法ARES-TL采用了基于策略重用的强化学习算法,并实时更新完整的策略库,通过占用一些空间存储策略库来节约算法时间,且强化学习算法能应对在线微量更新的地图,同时相对于同类型的策略重用方法,本发明的算法ARES-TL相对于PRQL以及OPS-TL规避了对不相干的源策略的重用导致的负迁移,提高了探索效率且能准确地完成导航任务。本发明可以应用于导航路径规划技术领域。
-
公开(公告)号:CN110081893B
公开(公告)日:2020-09-25
申请号:CN201910255926.8
申请日:2019-04-01
申请人: 东莞理工学院
摘要: 一种基于策略重用和强化学习的导航路径规划方法,它属于导航路径规划技术领域。本发明解决了现有方法对源策略的重用不充分的问题。本发明引入表示状态重要性的函数来辅助策略选择、策略重用以及策略库重构,实现了在路网地图中快速规划导航路径的目的。相比较于现有传统路径规划方法,本发明的算法ARES‑TL采用了基于策略重用的强化学习算法,并实时更新完整的策略库,通过占用一些空间存储策略库来节约算法时间,且强化学习算法能应对在线微量更新的地图,同时相对于同类型的策略重用方法,本发明的算法ARES‑TL相对于PRQL以及OPS‑TL规避了对不相干的源策略的重用导致的负迁移,提高了探索效率且能准确地完成导航任务。本发明可以应用于导航路径规划技术领域。
-
-
-
-
-
-
-
-
-