-
公开(公告)号:CN115249062B
公开(公告)日:2023-02-03
申请号:CN202211154367.X
申请日:2022-09-22
Applicant: 武汉大学
IPC: G06N3/0442 , G06N3/0464 , G06N3/096 , G06F40/30
Abstract: 本发明公开了一种基于知识蒸馏和视觉循环单元的文本生成视频网络模型、方法及装置。首先公开了一种通过知识蒸馏从文本生成图像模型获取知识增强文本生成视频模型效果的方法。将文本生成图像模型作为教师网络,从中蒸馏文本到视觉内容映射的知识,这些知识作为生成视频中每一帧共享的抽象约束,从而提升生成每一帧的文本图像语意一致性。同时本发明公开了一种视觉循环单元,该模块迭代地根据输入文本和先前生成的帧预测下一帧,旨在改善视频的时序连贯性。
-
公开(公告)号:CN115294263A
公开(公告)日:2022-11-04
申请号:CN202211221595.4
申请日:2022-10-08
Applicant: 武汉大学
Abstract: 本发明基于解耦的思想设计了一种光照估计模型、网络、方法及系统,使用分步训练的策略将原始任务解耦为主光源分布估计、语义结构补全和逆色调映射三个较为简单的子任务。特别地,主光源分布估计使用了级联网络;在语义结构补全任务中引入一个语义特征提取模块和光照注意力模块来分别保证补全图像的语义一致性和光照准确性;此外还设置了一个额外的曝光强度输出分支作为逆色调映射任务过曝光区域的指示,降低逆色调任务难度。本发明解决了目前光照估计中光照信息不准确和与输入图像语义不一致的问题,提升了对渲染物体材质的适应性以及渲染结果的真实感。
-
公开(公告)号:CN113343765B
公开(公告)日:2022-07-22
申请号:CN202110509506.5
申请日:2021-05-11
Applicant: 武汉大学
IPC: G06V20/00 , G06V10/82 , G06K9/62 , G06F16/583 , G06N3/04
Abstract: 本发明涉及点云检索领域,提供了一种基于神经网络与点云配准的场景检索方法及系统,主要包括网络训练模块与点云检索模块,其中网络训练模块以现有的点云检索网络为基础,引入基于概率的损失函数,使点云特征向量更好地表达点云的全局特征,其中点云检索模块应用了基于点云配准的重排序策略,确保存在相似结构的点云获得更高的检索排名。本发明不仅能够增强点云检索中点云特征计算的准确度,而且能够便捷地移植到不同的点云检索网络中,提升其检索的准确度。
-
公开(公告)号:CN110782490B
公开(公告)日:2022-07-05
申请号:CN201910907522.2
申请日:2019-09-24
Applicant: 武汉大学
IPC: G06T7/55
Abstract: 本发明提出一种具有时空一致性的视频深度图估计方法及装置,包括生成训练集,包括将中心帧作为目标视图,将前后两帧作为源视图,生成多个序列;针对场景中的静态物体,构建从未标记的视频序列联合训练单目深度和相机姿态估计的框架,包括搭建深度图估计网络结构,搭建相机位姿估计网络结构,并构建该部分的损失函数;针对场景中运动物体,在所创建的框架之后,级联上一个光流网络用来模拟场景中的运动,包括搭建光流估计网络结构,并构建该部分的损失函数;针对深度图时空一致性检验,提出深度神经网络的损失函数;不断优化模型,对单目深度和相机姿态估计进行联合训练,再对于光流网络进行训练;利用优化好的模型,实现连续视频帧的深度图估计。
-
公开(公告)号:CN110782490A
公开(公告)日:2020-02-11
申请号:CN201910907522.2
申请日:2019-09-24
Applicant: 武汉大学
IPC: G06T7/55
Abstract: 本发明提出一种具有时空一致性的视频深度图估计方法及装置,包括生成训练集,包括将中心帧作为目标视图,将前后两帧作为源视图,生成多个序列;针对场景中的静态物体,构建从未标记的视频序列联合训练单目深度和相机姿态估计的框架,包括搭建深度图估计网络结构,搭建相机位姿估计网络结构,并构建该部分的损失函数;针对场景中运动物体,在所创建的框架之后,级联上一个光流网络用来模拟场景中的运动,包括搭建光流估计网络结构,并构建该部分的损失函数;针对深度图时空一致性检验,提出深度神经网络的损失函数;不断优化模型,对单目深度和相机姿态估计进行联合训练,再对于光流网络进行训练;利用优化好的模型,实现连续视频帧的深度图估计。
-
-
-
-