-
公开(公告)号:CN119919496A
公开(公告)日:2025-05-02
申请号:CN202510004805.1
申请日:2025-01-02
Applicant: 浙江大学
Abstract: 本发明公开了一种适用于真实场景的绝对尺度相机轨迹图像到视频生成方法,主要步骤如下:使用多视角重建方法重建出相对尺度3D点云;使用单目深度预测方法重建出绝对尺度3D点云;计算相对尺度到绝对尺度的场景尺度缩放因子,并将相对尺度相机位姿对齐至绝对尺度相机位姿;将绝对尺度相机轨迹注入到扩散模型,基于去噪损失进行模型训练,得到场景尺度一致性扩散模型;在高噪声阶段使用一种无需训练的场景约束方法塑造场景尺度一致性扩散模型的画面布局,提升动态一致性,生成真实场景视频。本发明支持高精度相机运镜和场景尺度一致性训练,解决了现有技术中相机控制不精确、场景尺度不一致等问题。
-
公开(公告)号:CN118736651A
公开(公告)日:2024-10-01
申请号:CN202411232826.0
申请日:2024-09-04
Applicant: 浙江大学 , 杭州康晟健康管理咨询有限公司
IPC: G06V40/16 , G06V10/82 , G06N3/0464 , G10L15/16 , G10L15/08
Abstract: 本发明涉及医疗用图像采集技术领域,特别涉及智能语音辅助的腺样体肥大儿童面部图像采集系统及方法,包括:S1、采集面部多个角度的图像信息,并存储在本地和云端;S2、对采集到的图像信息进行评估,并输出评估结果;S3、获取评估结果,调用预存的语音合成模型,通过语音合成模型将语音指导数据转为音频数据后输出,指导受测者调整头部位置;S4、延时预设的时间后,再次获取新的图像信息,并进入步骤S2;S5、将新的图像信息发送到云端存储。本发明,通过ResNet网络识别图像中人脸的角度,并根据角度信息,判断图像是否符合标准,并输出相应的语音,对受测者进行指导。
-
公开(公告)号:CN118657860A
公开(公告)日:2024-09-17
申请号:CN202410801066.4
申请日:2024-06-20
Applicant: 浙江大学
IPC: G06T11/60 , G06F3/04845 , G06T3/4007 , G06T5/70 , G06T5/60 , G06N3/0455 , G06N3/0464
Abstract: 本发明公开了一种基于潜在一致性模型的无需微调高效拖拽式编辑方法,包括:设定拖拽点、特征范围,使用变分自编码器将原始图像映射到隐空间并克隆;使用拖拽、控制双流策略保证一致性,去噪过程中拖拽流部分Self‑Attention的Key、Value替换为控制流特征;使用潜在一致性模型自理解力进行拖拽,在拖拽流中对克隆后的隐向量添加高噪声后,将源点附近特征更新到目标区域,用高斯噪声覆盖原始特征区域随后去噪;使用高低噪声交错的循环修正策略,高噪声拖拽后利用低噪声修正;迭代以上步骤,变分自编码器解码输出拖拽完成图像,并通过交互界面展示给用户。本发明旨在解决自然语言难以对图像的空间属性进行细粒度控制的图像编辑挑战,同时兼顾拖拽速度与图像生成质量。
-
公开(公告)号:CN118470428A
公开(公告)日:2024-08-09
申请号:CN202410688407.1
申请日:2024-05-30
Applicant: 浙江大学
IPC: G06V10/764 , G06V10/774 , G06V10/82 , G06N3/0464 , G06N5/04 , G06N3/09
Abstract: 本发明公开了一种基于通道共享与复合父模型的多任务增量学习方法及系统,本发明的方法是一种新颖的用于渐进式多任务学习的细粒度通道级参数共享方法,本发明的方法是即插即用的,可以在任何网络结构上进行高效的参数共享。细粒度的通道级参数共享使本发明能够有效地利用预训练权重,而不需要强烈的假设,并且相比微调和其他现有的参数共享方法,不会浪费参数。此外,本发明的方法通过构建一个复合父模型来减少任务之间知识共享的成本。并且,细粒度的通道级参数共享与骨干结构和训练方式无关,可以通过最小的修改应用于任何网络的训练循环中。本发明在保持最佳精度‑参数比的同时,使用各种骨干结构实现了更加先进的性能。
-
公开(公告)号:CN117746018A
公开(公告)日:2024-03-22
申请号:CN202311718695.2
申请日:2023-12-13
Applicant: 浙江大学 , 上海合合信息科技股份有限公司
IPC: G06V10/25 , G06V10/26 , G06V10/75 , G06V10/74 , G06V10/774 , G06V10/776 , G06V10/70 , G06N5/04
Abstract: 本发明公开了一种面向平面扫描图像的用户定制化意图理解方法及系统,该方法包括:由基域数据集和目标域数据集获得增量测试集;在基域数据集上训练基域分割模型并进行推理,得到基础像素级掩膜;由目标域推理模型进行推理,得到目标像素级掩膜;将基础像素级掩膜与目标像素级掩膜,利用自提升模块进行融合和后处理,得到最终像素级掩膜。该系统包括数据集获取模块、增量测试集构建模块、基础像素级掩膜获取模块、目标像素级掩膜获取模块以及最终像素级掩膜获取模块。利用该方法可用于对平面扫描图像进行最终像素级掩膜的预测,实现用户定制化意图理解。本发明以较小的开销解决了小样本增量问题,能更好地适应用户个性化的意图理解任务。
-
公开(公告)号:CN117496013A
公开(公告)日:2024-02-02
申请号:CN202311456422.5
申请日:2023-11-03
Applicant: 浙江大学
Abstract: 本发明公开了一种基于可控扩散模型的心脏X光图像生成和编辑方法,具体包括如下步骤:将原始心脏X光图像输入到视觉文本大规模预训练模型中,利用其疾病类别作为标签,得到每张原始心脏X光图像的生成文本描述;利用生成文本描述和疾病类别构建自定义文本描述,将原始心脏X光图像和自定义文本描述一起输入到微调可控扩散模型中,得到新生成的心脏X光图像,完成心脏X光图像生成过程;将需要编辑的心脏X光图像输入到目标检测网络中,生成心脏X光图像的注意力图;利用注意力图作为掩码,自定义文本描述作为控制条件,利用微调可控扩散模型进行心脏疾病区域的修正,输出所述扩充数据集中已编辑的心脏X光图像,完成心脏X光图像编辑过程。
-
公开(公告)号:CN111931549B
公开(公告)日:2024-02-02
申请号:CN202010429280.3
申请日:2020-05-20
Applicant: 浙江大学
IPC: G06V40/20 , G06V10/764 , G06V10/82 , G06N3/0464 , G06N3/084
Abstract: 本发明公开了一种基于多任务非自回归解码的人体骨架的动作预测方法,用于人体3D骨架的动作预测问题。具体包括如下步骤:获取用于训练的人体3D骨骼关键点数据集,并定义算法目标;建立图卷积编码器,对输入的人体3D骨架进行特征学习,得到输入骨架的特征;建立分类器,对输入的人体3D骨架输入进行行为识别;建立非自回归解码器,预测未来时刻人体3D骨架;使用共享的图卷积编码器和分类器,对预测的人体3D骨架再进行行为识别;使用所述联合学习框架进行未来时刻的人体动作预测。本发明用于真实视频中的人体动作预测分析,面对各类复杂情况具有较佳的效果和鲁棒性。
-
公开(公告)号:CN116682082A
公开(公告)日:2023-09-01
申请号:CN202310625844.4
申请日:2023-05-30
Applicant: 浙江大学
IPC: G06V20/56 , G06V20/64 , G06T7/10 , G06V10/764 , G06V10/774
Abstract: 本发明公开了一种适用于自动驾驶场景下的车辆数字孪生方法,是一种新视图合成的应用,用于在交通场景下渲染出具有高保真度的车辆3D视图。主要包含如下步骤:1、数据预处理,得到用于模型渲染的输入数据;2、转换相机空间,使之以物体为中心;3、利用神经网络编码器对图像进行编码;4、利用解码器对物体的形状和外观进行解码;5、利用体积渲染,进行逐像素的渲染;6、坐标系转换,进行车端以及路端场景的实际应用。本发明解决了NeRF在交通车辆场景下应用的困境,实现数字孪生技术在自动驾驶场景下的应用。
-
公开(公告)号:CN115131549A
公开(公告)日:2022-09-30
申请号:CN202210677715.5
申请日:2022-06-15
Applicant: 浙江大学
IPC: G06V10/25 , G06V10/774
Abstract: 本发明公开了一种基于自提升学习的显著性目标检测训练方法。该方法包括如下步骤:使用显著性目标检测模型,预测出训练图像中的显著性物体;构建渐进式提升模块,用于预测一致连续的显著性标签,指导显著性模型的学习,并以动量更新的方式更新渐进式提升模块的网络参数;利用样本自适应模块评估生成的连续标签的质量,从而动态调节模型连续标签对于显著性模型优化过程的影响;通过数据增强的对输入图像增广变换,通过多层次一致性正则化操作,提升显著性模型的泛化能力。本发明提出的训练方法,充分利用自提升学习和一致性学习范式,能够更好地帮助显著性检测模型的训练,增强模型的准确性和泛化性。
-
公开(公告)号:CN114463543A
公开(公告)日:2022-05-10
申请号:CN202210087653.2
申请日:2022-01-25
Applicant: 浙江大学
IPC: G06V10/26 , G06V10/764 , G06V10/774 , G06V10/82 , G06K9/62 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种基于级联决策和交互标注自提升的弱监督语义分割方法。具体包括如下步骤:获取目标域数据集和网络域数据集;利用目标域数据集在现有弱监督语义分割网络训练框架上训练得到目标域分割网络;目标域分割网络对网络域数据集进行推断,得到每张网络图像分割结果的像素点集合,并进行数据清洗,获得单类标签网络数据集和多类标签网络数据集;利用获得的数据集在弱监督语义分割网络训练框架上训练得到网络域分割网络;目标域分割网络、网络域分割网络和已有显著性目标检测网络对目标域数据集进行推断,得到目标域像素级掩膜、网络域像素级掩膜和显著性图来级联决策得到最终像素级掩膜;利用最终像素级掩膜监督训练得到最终分割网络。
-
-
-
-
-
-
-
-
-