一种基于跨媒体解纠缠表示学习的风格化图像描述生成方法

    公开(公告)号:CN115293959A

    公开(公告)日:2022-11-04

    申请号:CN202210861710.8

    申请日:2022-07-20

    申请人: 浙江大学

    摘要: 本发明公开了一种基于跨媒体解纠缠表示学习的风格化图像描述生成方法。本发明分别从图像和描述文本中使用了两个解纠缠表示学习模块非对齐地学习解纠缠表示来分别学习图像和图像描述中解纠缠的事实信息和风格信息。在推理阶段,模型利用图像描述生成解码器以及一种特别设计的基于胶囊网络的信息聚合方法来充分利用先前学习的跨媒体信息表示,并通过直接控制隐层向量来生成目标风格的图像描述。和现有技术相比,本发明利用了解纠缠表示学习的技术提升了模型的可解释性和可控性。模型的跨媒体解纠缠表示可以带来更好的风格化图像描述生成性能,相对于现有的先进风格化图像描述生成模型,技术可在多个指标上的获得性能提升。

    一种结合早期监督学习和后期强化学习的智能体策略模型训练方法

    公开(公告)号:CN118014053A

    公开(公告)日:2024-05-10

    申请号:CN202410176652.4

    申请日:2024-02-08

    申请人: 浙江大学

    发明人: 张寅 邓悦

    摘要: 本发明公开了一种结合早期监督学习和后期强化学习的智能体策略模型训练方法,属于多智能体强化学习领域,包括:利用先前收集的轨迹作为上下文,用上下文预测器进行建模以产生下一个动作和观察结果,并在早期训练阶段使用上下文预测器来替代Q值函数或效用函数。此外,本发明采用联合动作采样机制来限制动作空间,并动态选择来自policy网络与来自上下文轨迹预测器的策略来执行rollout过程。通过合理限制动作空间和rollout过程,本发明可以显著加速算法训练过程。本发明的框架显著加速了现有的CTDE和非CTDE的多智能体强化学习方法的训练过程,同时在最终表现上也与它们的原始版本持平或超越原始算法。