基于上下文符号策略的元强化学习自动控制方法及系统

    公开(公告)号:CN117991628A

    公开(公告)日:2024-05-07

    申请号:CN202211378151.1

    申请日:2022-11-04

    摘要: 本发明提出一种基于上下文符号策略的元强化学习自动控制方法和系统,包括:将基础控制对象的运动轨迹的上下文变量输入参数生成器,得到上下文变量中所有动作维度在符号网络中的预测参数;路径选择器通过在预测参数上乘以二进制掩码,以从符号网络中选择代表符号表达式形式的路径;符号网络根据路径和预测参数,生成训练样本的预测控制策略;使用预测控制策略控制基础控制对象,根据其运动轨迹使用强化学习训练更新参数生成器和路径选择器;将目标控制对象的上下文变量输入训练完的路径选择器和参数生成器,得到符号网络的结构和参数,从而得到目标控制对象符号化的控制策略,以控制策略控制目标控制对象完成控制目标。

    机械臂控制方法及装置
    4.
    发明公开

    公开(公告)号:CN117532610A

    公开(公告)日:2024-02-09

    申请号:CN202311666755.0

    申请日:2023-12-06

    IPC分类号: B25J9/16 B25J13/00

    摘要: 本发明提出一种机械臂控制方法及装置,该方法包含:构建机械臂控制的模拟环境,获取环境状态信息,所述环境状态信息包含机械臂的位姿与速度,以及待操作物体位置;以所述环境状态信息作为输入信息,输入至符号网络中,所述符号网络的输出为机械臂动作值,包含机械臂的关节速度;从所述符号网络中选择合适的路径生成符号策略;依据所述符号策略部署机械臂的控制任务。该方法能够提高符号策略学习的效率,从而使用更少的交互数据学习到机械臂控制,提高了机械臂控制的精度。

    一种基于数据并行可信分布式神经网络加速器架构构建方法

    公开(公告)号:CN117195983A

    公开(公告)日:2023-12-08

    申请号:CN202310986571.6

    申请日:2023-08-07

    IPC分类号: G06N3/063 G06F9/50 G06F21/60

    摘要: 一种基于数据并行可信分布式神经网络加速器架构构建方法、加速器架构、加速器和服务器,包括以下步骤:构建主机节点步骤,用于对多个神经网络加速器节点进行远程认证、控制和数据分发;构建动态随机存取内存步骤;构建所述多个神经网络加速器节点步骤,进一步包括:构建控制处理器步骤;构建计算单元步骤;构建内存控制器步骤,用于提供数据可信保护,其中,又包括:在片上构建分布式大模型的全局版本号结构;利用不使用数据地址的方式对数据进行加密、解密、完整性保护生成和完整性保护验证;所述加密、解密、完整性保护生成和完整性保护验证以神经网络层的张量为粒度进行通信。

    基于帧间相似性的对抗补丁检测定位方法及系统

    公开(公告)号:CN115422533A

    公开(公告)日:2022-12-02

    申请号:CN202210940151.X

    申请日:2022-08-05

    摘要: 本发明提出一种基于帧间相似性的对抗补丁检测定位方法,包括:提取关键视频帧的浅层特征图,通过滑窗方式从该浅层特征图中选取多个候选窗口,当任一候选窗口中LISF的个数超过筛选阈值时,以该候选窗口为重要窗口;以每个该重要窗口为掩膜遮挡该视频帧,并执行图像检测,得到对应每个该重要窗口的掩膜检测结果;对所有该掩膜检测结果执行垄断者投票,判断该对抗补丁在该关键视频帧中的位置;根据帧间相似性消除该对抗补丁对该关键视频帧的相邻视频帧的干扰。本发明还提出一种基于帧间相似性的对抗补丁检测定位系统,以及一种用于对抗补丁检测定位的数据处理装置。

    基于局部浅层重要神经元的对抗补丁检测定位方法及系统

    公开(公告)号:CN115422532A

    公开(公告)日:2022-12-02

    申请号:CN202210940143.5

    申请日:2022-08-05

    摘要: 本发明提出一种基于局部浅层重要神经元的对抗补丁检测定位方法,包括:获取视频帧的浅层特征图,从该浅层特征图中选取多个候选窗口,当任一候选窗口中LISF的个数超过筛选阈值时,以该候选窗口为重要窗口;以每个该重要窗口为掩膜遮挡该视频帧,并执行图像检测,得到对应每个该重要窗口的掩膜检测结果;对所有该掩膜检测结果执行垄断者投票,若存在某一掩膜检测结果与其他掩膜检测结果相异,且其他掩膜检测结果均相同,则该视频帧存在对抗补丁,该掩膜检测结果对应的重要窗口为该对抗补丁所在位置,反之则该视频帧为正常图像。本发明还提出一种基于局部重要浅层神经元的对抗补丁检测定位系统,以及一种用于对抗补丁检测定位的数据处理装置。

    一种基于对象的强化学习方法及系统

    公开(公告)号:CN117689912A

    公开(公告)日:2024-03-12

    申请号:CN202211013747.1

    申请日:2022-08-23

    摘要: 本发明提出一种基于对象的强化学习方法和系统,包括:智能体采集在当前所处环境的观测图像,从该观测图像中识别出对象的位置,并对其进行无监督聚类,得到各对象的类别标签;以该对象的类别标签为监督,通过卷积神经网络对该观测数据进行对象抽取,得到该观测图像的对象表示;基于该观测图像的对象表示,构建该观测图像中对象间的关系,作为该观测图像的特征向量,基于该特征向量执行学习策略,得到目标动作,该智能体执行该目标动作与该环境产生交互。该发明可以提升强化学习中策略的推理能力,使其具备较高的泛化能力。

    分布式神经网络加速器系统
    9.
    发明公开

    公开(公告)号:CN117332831A

    公开(公告)日:2024-01-02

    申请号:CN202311271771.X

    申请日:2023-09-28

    IPC分类号: G06N3/063 G06F21/57

    摘要: 本发明提出一种分布式神经网络加速器系统,主机节点配置为:向每一加速器节点进行远程认证,利用神经网络编译器对模型进行编译,生成数据流图,并确定各个加速器节点间子图的依赖关系;对编译后的模型进行切分,将各个子图分配到各加速器节点。每一子图的计算层包含:一接口层,以可转移张量表示,包含转移张量数据、第一辅助数据;转移张量数据保存在片外存储器,第一辅助数据保存在片上存储器;一内部层,以普通张量表示,包含普通张量数据、第二辅助数据;普通张量数据保存在片外存储器,第二辅助数据包含第二张量版本号、第二张量MAC,第二张量版本号保存在片上存储器,第二张量MAC保存在片外存储器。其减少了VN的内存访问开销和存储开销。