-
公开(公告)号:CN119067174A
公开(公告)日:2024-12-03
申请号:CN202411077367.3
申请日:2024-08-07
Applicant: 浙江大学
IPC: G06N3/0455 , G06N3/084 , G06N3/09 , G06F18/25 , B60W60/00
Abstract: 本发明公开了一种基于自我感知掩码的轨迹预测方法,包括:构建一个基于Transformer的深度神经网络;复制一个相同结构的深度神经网络,组成教师‑学生模型;在模型的顶层加入全连接层网络,在轨迹预测数据集上进行自我感知的掩码生成训练,训练后的学生模型后续作为掩码生成模块产生高质量掩码;构建一个基于Transformer编码‑解码结构的注意力神经网络;将训练好的掩码生成模块加入到注意力神经网络中在轨迹预测数据集上对注意力神经网络进行轨迹重建预训练;预训练结束后,将注意力神经网络在轨迹数据集上进行轨迹预测训练;将训练好的轨迹预测网络应用在自动驾驶系统中,用于预测其他交通参与者的轨迹。本发明能够提升模型的训练效率,使轨迹预测更加准确。
-
公开(公告)号:CN116543233A
公开(公告)日:2023-08-04
申请号:CN202310638294.X
申请日:2023-06-01
Applicant: 浙江大学
IPC: G06V10/764 , G06V10/82 , G06F18/243
Abstract: 本发明公开了一种基于频繁项集的图像多标签分类方法,包括如下步骤:(1)在图像数据集中,使用频繁项集挖掘算法挖掘出数据集的频繁项集;(2)利用挖掘出的频繁项集构建树形结构的图像多标签分类网络;(3)将特征提取网络和图像多标签分类网络结合得到总分类网络,其中,特征提取网络输出的特征向量作为图像多标签分类网络的输入;(4)训练总分类网络模型直至模型收敛;(5)将待分类的图像输入训练好的总分类网络模型中,得到多标签的分类结果。本发明通过频繁项集挖掘算法生成的频繁项集自动生成更为合理的图像多标签分类网络,可以提供更高的图像多标签分类精度。
-
公开(公告)号:CN119693768A
公开(公告)日:2025-03-25
申请号:CN202411765587.5
申请日:2024-12-04
Applicant: 浙江大学
IPC: G06V10/82 , G06V10/764 , G06V20/70 , G06N3/0455 , G06N3/08
Abstract: 本发明共公开了一种基于多模态思维链的多模态大语言模型属性预测方法,包括:获取多模态大语言模型,与掩码生成器和场景图解析器一起构成多模态属性预测框架;设计分层思维链的推理方法,将属性预测任务输入多模态属性预测框架,提取出属性表的层级,生成分层、格式化的推理提示;将属性预测任务分解成层级化的子任务,并为模型的下一步预测选取提示方法;通过批判性思维监督模型预测过程;采用逻辑检查的提示方法,识别出图像中的物体类别,并结合模型中的常识知识,提取相对应的属性值;结合生成的场景图与模型中的常识知识,对预测出的属性进行检查。本发明可有效提升属性预测任务的上下文理解能力、逻辑一致性、任务通用性和模型推理效率。
-
公开(公告)号:CN111882563B
公开(公告)日:2022-05-27
申请号:CN202010669134.8
申请日:2020-07-13
Applicant: 浙江大学
Abstract: 本发明公开了一种基于方向性卷积网络的语义分割方法,包括:(1)构建一个方向性卷积的全卷积网络;(2)将构建的方向性全卷积网络的顶层加入池化层和全连接层网络,构成第一深度模型,并在在大型数据集上进行预训练;(3)提取预训练好的第一深度模型中的全卷积部分,使用全卷积层初始化方向性全卷积网络的参数,并在其后加入新的全连接层,构成第二深度模型;(4)使用图片语义分割的数据集训练第二深度模型,直到模型收敛;(5)利用训练后的第二深度模型对待测图片进行分析,预测图像中每个像素所属的类别,形成图像语义分割图输出。本发明的方法能够促进语义分割学习感知野和中心像素的联系,提升训练模型的鲁棒性。
-
公开(公告)号:CN118967809A
公开(公告)日:2024-11-15
申请号:CN202411020512.4
申请日:2024-07-29
Applicant: 浙江大学
IPC: G06T7/73 , G06T7/13 , G06V10/44 , G06V10/82 , G06N3/0464
Abstract: 本发明公开了一种基于固定标识物视觉检测的无人机位姿估测方法及系统,包括以下步骤:(1)搭建深度模型,使用机场跑道图像进行目标检测训练;(2)使用深度模型进行推理,输入机载相机拍摄的机场跑道图像,输出跑道角点坐标;(3)通过后处理过滤筛选,得到置信度较高的角点;(4)使用消影点算法解算得到当前位姿状态;(5)使用正交迭代算法对位姿状态进行优化,得到机载相机的最终位姿结果。利用本发明,可以对现有的位姿估计方案进行优化,提升算法的精确度、泛化性和稳定性。
-
公开(公告)号:CN116863207A
公开(公告)日:2023-10-10
申请号:CN202310750086.9
申请日:2023-06-21
Applicant: 浙江大学
IPC: G06V10/764 , G06V10/774 , G06V10/82
Abstract: 本发明公开了一种基于知识蒸馏的图像分类方法,包括:(1)构建一个深度神经网络作为第一深度模型;(2)将构建的第一深度模型在图像训练集上进行训练;(3)提取训练好的第一深度模型中的网络骨干部分,在每层的输出后加入辅助分类头,随机初始化辅助分类头,构成第二深度模型;(4)冻结网络骨干部分,训练辅助分类头;(5)构建一个包含每层辅助分类头的深度神经网络,进行随机初始化,构成第三深度模型;(6)逐层训练第三深度模型,利用第二深度模型每层辅助分类头的输出作为监督;(7)提取第三深度模型的骨干部分以及最后一层辅助分类头,进行图像分类。利用本发明,可以提升训练模型的优化能力,提高图像分类的效果。
-
公开(公告)号:CN116645575A
公开(公告)日:2023-08-25
申请号:CN202310633481.9
申请日:2023-05-31
Applicant: 浙江大学
IPC: G06V10/774 , G06V10/80 , G06V10/82 , G06V10/762 , G06V10/25 , G06V20/58 , G06T7/80 , G06N3/045 , G06N3/08
Abstract: 本发明公开了一种基于图像点云互信息的交通指示灯半自动化标注方法,包括如下步骤:(1)收集交通指示灯数据集,预处理后进行数据标注和增强;(2)使用步骤(1)的数据训练一个目标检测模型,所述的目标检测模型采用改进的加入锚定框优化和注意力机制的YOLOv4模型;使用训练好的目标检测模型对道路视频图像进行检索,找到含有道路交通指示灯的图片;(3)通过激光雷达和相机的联合标定,将2D图像的像素点反投影到激光雷达坐标系的3D点云数据;(4)人工对自动标注出的红绿灯位置进行校验和修正。利用本发明,有助于提升高精度地图制作效率和精确度,为自动驾驶系统提供了更精确的交通指示灯定位信息。
-
公开(公告)号:CN110443805A
公开(公告)日:2019-11-12
申请号:CN201910614753.4
申请日:2019-07-09
Applicant: 浙江大学
Abstract: 本发明公开了一种基于像素密切度的语义分割方法,包括以下步骤:(1)将深度神经网络在目标分类任务上进行预训练;(2)在深度神经网络上加入ASPP结构和Decoder结构;(3)在最顶层的高维特征向量上加入额外的像素密切度分支;(4)从语义分割的标注数据中得出像素密切度的标签并用于训练;(5)训练结束后,在应用过程中使用一个密切度传播后处理函数结合两种输出信息,产生优化过后的语义分割结果。利用本发明,可以对现有的全卷积网络解决方案进行优化,提升语义分割的精准度和稳定性。
-
公开(公告)号:CN119311831A
公开(公告)日:2025-01-14
申请号:CN202411429216.X
申请日:2024-10-14
Applicant: 浙江大学
IPC: G06F16/3329 , G06N5/04 , G06F40/30 , G06F40/289
Abstract: 本发明公开了一种针对异构数据库混合检索生成增强的知识问答方法及系统,其中,方法包括以下步骤:(1)处理文本数据,构建异构数据库;(2)接收用户查询,在异构数据库中进行混合检索;合并检索结果,得到与用户查询相关的文档和三元组信息;(3)使用重排序模型对检索到的文档和三元组信息进行重新排序,选出与用户查询相关度最高的K个检索结果;(4)将用户查询与检索结果组合,构建提示词并输入到大语言模型中,生成连贯且准确的自然语言答案。利用本发明,可以实现更加全面、准确的信息检索,提升知识问答结果的准确性和可靠性。
-
公开(公告)号:CN119011969A
公开(公告)日:2024-11-22
申请号:CN202411054722.5
申请日:2024-08-02
Applicant: 浙江大学
IPC: H04N21/81 , G06V10/40 , G06V10/774 , H04N21/234 , H04N21/235 , H04N21/435 , H04N21/44
Abstract: 本发明公开了一种基于检索的文生视频方法,包括:(1)对输入的文本提示P进行文本特征提取,获得语义向量;(2)利用语义向量在文本‑视频库中进行检索,匹配相似的文本‑视频对,选择与输入的文本提示P最相似的参考视频;(3)从参考视频中提取关键帧及其关键区域,并进行运动特征的提取;(4)使用提取的运动特征对预训练的文本‑视频生成模型进行微调;(5)将文本提示P输入到微调后的文本‑视频生成模型中,生成最终视频。利用本发明,可以提高生成视频的运动特征精准度,降低计算成本的同时提升视频的真实性。
-
-
-
-
-
-
-
-
-