-
公开(公告)号:CN114581870A
公开(公告)日:2022-06-03
申请号:CN202210216630.7
申请日:2022-03-07
申请人: 上海人工智能创新中心
摘要: 本申请实施例公开了一种轨迹规划方法、装置、设备和计算机可读存储介质。该方法包括:获取针对目标车辆的多个不同角度的图像和当前时刻的导航指示信息;对多个不同角度的图像进行特征提取并融合,确定当前时刻对应的特征矩阵和历史时刻对应的特征矩阵;根据当前时刻对应的特征矩阵进行网络预测,确定第一特征矩阵,以及根据当前时刻对应的特征矩阵和历史时刻对应的特征矩阵进行网络预测,得到第二特征矩阵;基于第一特征矩阵和第二特征矩阵,融合得到未来时刻对应的特征矩阵;根据当前时刻对应的特征矩阵和未来时刻对应的特征矩阵进行对象分割,得到对象分割结果;根据对象分割结果和导航指示信息进行轨迹规划,得到未来时刻的行驶轨迹。
-
公开(公告)号:CN114581540A
公开(公告)日:2022-06-03
申请号:CN202210204909.3
申请日:2022-03-03
申请人: 上海人工智能创新中心
摘要: 本申请实施例提供了一种场景任务处理方法、装置、设备和计算机可读存储介质,包括:获取场景中的多种类型物体的属性信息;根据多种类型物体中每个物体的属性信息,确定每个节点的初始节点特征,以及两两节点之间构成的边中每个边的初始边特征;初始边特征表征两两节点对应的两两物体之间的语义关系特征和相对位置关系特征;每个节点和每个边组成异质图;基于每个节点的初始节点特征和每个边的初始边特征,通过更新网络对每个节点和每个边进行多个组合种类的特征更新,得到每个节点更新特征和每个边更新特征;其中,组合种类用于表征边的两个节点为一组的节点类型组合种类;基于每个节点更新特征和每个边更新特征进行场景任务处理。
-
公开(公告)号:CN114580544A
公开(公告)日:2022-06-03
申请号:CN202210217381.3
申请日:2022-03-07
申请人: 上海人工智能创新中心
摘要: 本申请实施例提供了一种场景任务处理方法、装置、设备和计算机可读存储介质,包括:获取待处理场景任务图像;通过场景任务处理网络,对待处理场景任务图像进行场景任务处理,得到场景任务处理结果;其中,场景任务处理网络是通过组合样本数据集训练得到的;组合样本数据集包括的多个目标样本数据集的格式相同;多个目标样本数据集是由多种格式的样本数据集进行格式转换得到;多个目标样本数据集中的每个目标样本数据集包含原有的目标物体的标注标记,以及新标注的目标物体的标注标记;新标注的目标物体的标注标记包括在原有的目标物体的标注标记的基础上补充的细化标注标记信息。
-
公开(公告)号:CN114495551A
公开(公告)日:2022-05-13
申请号:CN202111664027.7
申请日:2021-12-31
申请人: 上海人工智能创新中心
IPC分类号: G08G1/0968 , G08G1/052
摘要: 本申请实施例公开了一种轨迹规划方法、装置、设备和计算机可读存储介质。该方法包括:获取待决策对象的交通类信息和待决策对象的行驶类信息;在交通类信息中的协同决策时刻,根据待决策对象预期进入冲突范围的时刻和行驶类信息,规划待决策对象在冲突范围内的初始轨迹;若初始轨迹与既定轨迹发生冲突,则增加待决策对象进入冲突范围的单位延误时间,直至所规划的轨迹与既定轨迹不会发生冲突时为止,得到待决策对象的行驶轨迹。既定轨迹表示已经确定的轨迹,包括车辆既定轨迹和人行横道的信号灯为通行时所占用的时空序列,在轨迹规划时,实现了道路交叉口的车‑车和人‑车协同管理,提高了道路交叉口通行效率。
-
公开(公告)号:CN114494172A
公开(公告)日:2022-05-13
申请号:CN202210068371.8
申请日:2022-01-20
申请人: 上海人工智能创新中心
IPC分类号: G06T7/00 , G06V10/40 , G06V10/82 , G06V10/766 , G06N3/08
摘要: 本申请实施例提供了一种点云检测方法及装置、电子设备和存储介质,方法包括:获取待检测点云;基于点云检测网络,对待检测点云进行检测,得到检测结果;其中,点云检测网络是根据第一网络的第一特征提取网络得到的;第一网络和第二网络的网络结构相同;第一网络用于对全局点云进行特征提取,得到第一特征;第二网络用于对全局点云进行特征提取,得到第二特征,以及,对局部点云进行特征提取,得到第三特征;全局点云和局部点云是对训练样本的点云进行剪裁得到的;第一特征、第二特征和第三特征用于确定损失;第二网络的第二网络参数是基于损失调整得到的;第一网络的第一网络参数是根据调整后的第二网络的参数进行调整得到的。
-
公开(公告)号:CN118863011A
公开(公告)日:2024-10-29
申请号:CN202411056114.8
申请日:2024-08-02
申请人: 中国科学院深圳先进技术研究院 , 上海人工智能创新中心
IPC分类号: G06N3/096 , G06N3/006 , G06N3/0442 , G06N3/0455 , G06N3/0499 , G06N3/048 , G06F16/35 , G06F16/55 , G06F16/583
摘要: 本申请公开了一种多模态基础模型迁移方法及系统,运用于迁移学习技术领域,其方法包括:获取输入图像和文本类别;提取输入图像的视觉特征以及文本类别中的文本特征;基于视觉特征和文本特征分别计算第一损失和第二损失;计算输入图像相对于所述文本类别的预测分数,进而聚合得到混合分数向量;计算输入图像在文本类别上的提示分数向量;计算提示分数向量和混合分数向量之间的第三损失,计算预设的多模态基础模型对输入图像的预测分数向量和真实样本标签的交叉熵损失;基于第一损失、第二损失、第三损失、交叉熵损失,得到迁移框架,通过迁移框架将外部异构知识集成至多模态基础模型中。
-
公开(公告)号:CN118828050A
公开(公告)日:2024-10-22
申请号:CN202410828992.0
申请日:2024-06-25
申请人: 上海人工智能创新中心
IPC分类号: H04N21/233 , G06N3/0464 , G06N3/08 , H04N21/234 , H04N21/439 , H04N21/44 , H04N21/242 , H04N21/43 , H04N21/8547 , G10L25/48
摘要: 本发明涉及一种无声视频拟音方法、电子设备、存储介质,方法利用注入处理后的Unet网络生成待拟音的无声视频的视频拟音,其中,注入处理包括如下步骤:针对所述无声视频和预先获取的提示词,分别进行特征提取得到视觉编码和文本编码;基于平行交叉注意力机制,将所述视觉编码和文本编码注入预先构建的Unet网络的交叉注意力层;针对所述无声视频,通过事件发生检测得到事件发生信号;通过逐层残差添加的方式,将所述事件发生信号注入所述Unet网络的解码器层。与现有技术相比,本发明具有改善音画同步、实现文本控制的拟音生成等优点。
-
公开(公告)号:CN118823783A
公开(公告)日:2024-10-22
申请号:CN202410940539.9
申请日:2024-07-15
申请人: 西北工业大学 , 上海人工智能创新中心
IPC分类号: G06V20/70 , G06V20/10 , G06V10/774 , G06V10/30 , G06V10/40 , G06V10/80 , G06V10/82 , G06T5/50 , G06T5/10 , G06T5/70 , G06N3/0442 , G06N3/048 , G06N3/08
摘要: 本发明公开了一种基于自适应视觉环境增强机制的遥感场景语义图构建方法,首先提出了一种遥感数据语义图构建方法,有效地扩增了数据集的规模和多样性。其次,学习原始SAR图像和生成光学图像的噪声信息,实现了特征图的降噪,提高了图像数据的质量。接下来引入加权门控机制自适应地将低级特征图与去噪特征图信息融合,有效地消除了图像中的噪声,同时保持了图像细节的清晰度和完整性,避免了处理过程中可能导致的信息损失。最后,在AIR‑PolSegSAR数据集上的实验结果表明,该方法取得了显著的去噪和特征增强效果,有效缓解了SAR图像数据的过拟合现象,实现了各项分割指标的改进。
-
公开(公告)号:CN118708381A
公开(公告)日:2024-09-27
申请号:CN202410844715.9
申请日:2024-06-27
申请人: 浙江大学 , 上海人工智能创新中心
IPC分类号: G06F9/54 , G06N3/0455 , G06N3/042 , G06N3/096 , G06F18/241
摘要: 本发明提出了一种异构多模态混合专家适配器,将传统单一类型的多模态MoE架构转变为多种专家类型的组合。该适配器将每个专家的输入从单一模态扩展到多个模态,实现每个专家内部的跨模态交互。具体地,本发明引入了包括交叉注意力专家和通道注意力专家在内的异构专家结构,将不同模态的输入映射到低秩空间,在该空间中进行模态交互融合,再映射回原始维度,使可训练参数能够有效调整冻结预训练模型的梯度,充分利用不同模态间的协同交互。全局路由器为每组专家分配权重,局部组路由器控制每个专家的门控权重。该适配器可集成到多模态预训练模型的编码器层中,在下游任务上仅微调可训练参数,保持推理阶段参数量基本不变。
-
公开(公告)号:CN118708071A
公开(公告)日:2024-09-27
申请号:CN202410861083.7
申请日:2024-06-28
申请人: 上海人工智能创新中心
摘要: 本发明涉及一种多粒度视觉信息引导的多模态语言生成方法和系统,方法包括以下步骤:获取视觉输入和文本输入,根据文本输入提取文本输入特征,将视觉输入通过多粒度视觉融合模块处理后,与文本输入特征进行拼接,并输入大语言模型中进行解码获得输出响应;多粒度视觉融合模块将视觉输入插值为低分辨率数据和高分辨率数据,并分别进行特征提取,得到低分辨率特征和高分辨率特征,并提取出对象级特征;将低分辨率特征与高分辨率特征融合后,得到融合特征,再与对象级特征拼接,得到输出的特征结果。与现有技术相比,本发明具有提升了多模态大语言模型的细粒度感知和理解能力,提升了多模态大语言模型的性能等优点。
-
-
-
-
-
-
-
-
-