用于表征视频内容的深度强化学习框架

    公开(公告)号:CN111837142A

    公开(公告)日:2020-10-27

    申请号:CN201880069825.5

    申请日:2018-10-25

    Inventor: R.陈 N.库马尔 H.李

    Abstract: 视频场景中的视频信息被表示为每帧描绘的特征序列。通过时间步距t的视频信息和来自前一时间步距t‑1的预测情感信息来表示对应于每个帧的每个时间步距t的环境状态。利用由机器学习算法控制的代理对步距t的帧采取动作A(t),其中动作A(t)的输出表示时间步距t的帧的情感标签预测。将预测动作池转变成下一时间步距t+1的预测情感历史。包括预测情感历史作为下一时间步距t+1的所述环境状态的一部分。通过将到当前时间步距t为止的预测动作与对应的标注电影场景情感标签进行比较,关于预测动作生成奖励R。

    用于表征视频内容的深度强化学习框架

    公开(公告)号:CN111837142B

    公开(公告)日:2024-11-26

    申请号:CN201880069825.5

    申请日:2018-10-25

    Inventor: R.陈 N.库马尔 H.李

    Abstract: 视频场景中的视频信息被表示为每帧描绘的特征序列。通过时间步距t的视频信息和来自前一时间步距t‑1的预测情感信息来表示对应于每个帧的每个时间步距t的环境状态。利用由机器学习算法控制的代理对步距t的帧采取动作A(t),其中动作A(t)的输出表示时间步距t的帧的情感标签预测。将预测动作池转变成下一时间步距t+1的预测情感历史。包括预测情感历史作为下一时间步距t+1的所述环境状态的一部分。通过将到当前时间步距t为止的预测动作与对应的标注电影场景情感标签进行比较,关于预测动作生成奖励R。

    用于将图像数据转换成自然语言描述的系统和方法

    公开(公告)号:CN113168523A

    公开(公告)日:2021-07-23

    申请号:CN201980079109.X

    申请日:2019-11-26

    Inventor: J.郑 R.陈

    Abstract: 对于诸如计算机游戏图像或其他图像的图像加字幕,自底向上的注意力(400)与自顶向下的注意力(402)组合以提供多级基于残差注意力的图像加字幕模型。首先在Faster R‑CNN网络中应用残差注意力机制(500),以通过考虑空间信息来学习每个区域的更好的特征表示。在图像加字幕网络中,以提取的区域特征作为输入,实现第二残差注意力网络(1204)以在注意力上将区域特征融合以用于后续的字幕生成。

    用现实世界内容增强虚拟现实内容

    公开(公告)号:CN109643162B

    公开(公告)日:2022-09-09

    申请号:CN201780051080.5

    申请日:2017-06-27

    Inventor: R.陈

    Abstract: 提供了用于利用现实世界内容来增强虚拟现实场景的方法、设备和计算机程序。一个示例方法包括以下操作:从用户的HMD获得传感器数据以确定满足将一个或多个现实世界对象覆盖到虚拟现实场景中以提供增强的虚拟现实场景的标准。在某些示例中,所述标准对应于在用户佩戴所述HMD并被呈现虚拟现实场景时暗示用户迷失方向的预定指示符。在某些其他示例中,基于所述一个或多个现实世界对象在使迷失方向的用户重新定向时的有效性来选择它们。

    用现实世界内容增强虚拟现实内容

    公开(公告)号:CN109643162A

    公开(公告)日:2019-04-16

    申请号:CN201780051080.5

    申请日:2017-06-27

    Inventor: R.陈

    Abstract: 提供了用于利用现实世界内容来增强虚拟现实场景的方法、设备和计算机程序。一个示例方法包括以下操作:从用户的HMD获得传感器数据以确定满足将一个或多个现实世界对象覆盖到虚拟现实场景中以提供增强的虚拟现实场景的标准。在某些示例中,所述标准对应于在用户佩戴所述HMD并被呈现虚拟现实场景时暗示用户迷失方向的预定指示符。在某些其他示例中,基于所述一个或多个现实世界对象在使迷失方向的用户重新定向时的有效性来选择它们。

Patent Agency Ranking