一种机务段场景视觉问答方法、系统及服务器
摘要:
本发明提供了一种机务段场景视觉问答方法、系统及服务器,采用机车正常状态和动作前状态的两种机务段场景的图像数据,创建具有双重注意力与动态描述的第一视觉问答模型,通过对两个模块的联合训练,极大地提升在多个需要机车做出反应的场景变化对象同时出现以及场景内干扰物较多情况下的场景视觉问答能力、提高了复杂环境下机务段场景的检测效果,同时提升对于机务段场景视频的动态判断与描述能力,在需引起机车反应的机务段场景对象动态变化时,保持高稳定性的描述,满足了复杂度极高的工业的使用需求。
公开/授权文献
0/0