-
公开(公告)号:CN118982710A
公开(公告)日:2024-11-19
申请号:CN202411054328.1
申请日:2024-08-02
Applicant: 上海浙江大学高等研究院 , 浙江大学
IPC: G06V10/764 , G06V10/774 , G06V10/94
Abstract: 本发明公开了一种基于反事实表征学习的端云协同计算方法及系统,该方法主要针对端云协同环境下数据异质性导致的辛普森悖论问题,本方法通过识别和替换端侧本地图像数据的关键特征,生成反事实正负样本进行对比学习,以逼近全局数据分布,减轻端侧图像分类模型与全局模型间的偏差;为确保特征独立可控,引入因子去相关损失约束特征间相关性本发明的方法提供了一种有效应对数据异质性、缓解辛普森悖论、实现端向云去偏汇聚的联邦学习,在非IID与IID数据分布下有效地提高了全局模型的性能。
-
公开(公告)号:CN118708803A
公开(公告)日:2024-09-27
申请号:CN202410697866.6
申请日:2024-05-31
Applicant: 浙江大学 , 上海浙江大学高等研究院 , 上海人工智能创新中心
IPC: G06F16/9535 , G06F16/9536 , G06V40/16 , G06Q50/20
Abstract: 本发明公开了一种基于端云协同的多模态在线试题推荐方法、系统及介质。该方法通过在设备端获取用户的做题记录、题目属性、以及作答过程中的表情信息,在设备端进行认知诊断以获得用户知识雷达图诊断结果,根据诊断结果实现自适应试题推荐。为解决设备端推荐题库的限制,设计了云端选题策略和设备端选题策略,可以根据用户需求从题目类型和质量的角度选择多样性的题目,由云端将这些题目下发至用户,并移除设备端中的冗余题目。本发明的方法实现了端云协同下的自适应考试,通过融合用户表情信息进行精准诊断,并依据诊断结果实现个性化试题推荐,解决了传统方法无法适用于大规模题库的问题,具有推荐效果好、诊断精准等优点。
-
公开(公告)号:CN118658190A
公开(公告)日:2024-09-17
申请号:CN202410806081.8
申请日:2024-06-21
Applicant: 浙江大学 , 上海浙江大学高等研究院 , 上海人工智能创新中心
IPC: G06V40/16 , G06V10/764 , G06V10/80 , G06V10/82 , G06N3/047 , G06N3/0499 , G06N3/09
Abstract: 本发明公开了一种基于端云协同的多模态融合的行人重识别方法与系统,该方法首先利用不确定性引导采样模块筛选出需要上传到云侧的行人图像。然后,采用多模态行人重识别网络,计算脸部和步态特征的加权平均值并生成自适应融合特征,通过全连接层和softmax函数进行特征分类。此外,本发明方法在云端优化视觉提示,实现了云侧基于提示学习的知识迁移。通过联合优化教师模型和学生模型,改善端侧学生模型的性能。最后,将云侧学习到的视觉提示传递到端侧,并应用于人脸图像和步态图像,以提高行人重识别的准确率。本发明有效地提升了跨外观行人重识别模型的检索性能,同时解决了网络在不同环境下的泛化问题。
-
公开(公告)号:CN119107497A
公开(公告)日:2024-12-10
申请号:CN202411199393.3
申请日:2024-08-29
Applicant: 上海浙江大学高等研究院 , 浙江大学
IPC: G06V10/764 , G06V10/762 , G06N3/096
Abstract: 本发明公开了一种基于多端聚类协同增效机制的异步协同训练方法及系统,本发明通过对云端模型进行知识分解,利用云端超网络以及多头注意力机制,在云端模型与设备端模型间构建低秩参数桥梁,实现异构模型参数空间的直接互动、知识抽取与应用,增强设备端模型的泛化能力和应用效果。
-
公开(公告)号:CN119048198A
公开(公告)日:2024-11-29
申请号:CN202411120313.0
申请日:2024-08-15
Applicant: 上海浙江大学高等研究院 , 浙江大学
IPC: G06Q30/0601 , G06F16/9535 , G06N3/08 , G06F17/16 , G06N3/082 , G06F21/62
Abstract: 本发明公开了一种基于参数拼接的大小模型端云协同计算方法及系统。本发明采用了一种独特的跨多个模型的参数融合策略来克服由于无效或不那么重要的参数造成的限制。本发明的方法包括两个主要组成部分:参数值评估和参数融合。模型参数值由局部参数价值矩阵和全局参数价值融合得到。局部参数价值矩阵是通过参数差来判断各位置参数的散度,而全局参数价值利用模型参数信息熵的大小来评估模型参数的总体值。模型参数融合的方法包括硬融合和软融合两种方式,可以根据其评价值来确定拼接模型中参数的值。通过这种算法,在大量的推荐模型和动态模型框架的数据集上,可以在不增加推理成本的情况下具有显著的优势。
-
公开(公告)号:CN116797656A
公开(公告)日:2023-09-22
申请号:CN202310177625.4
申请日:2023-02-28
Applicant: 浙江大学 , 杭州一知智能科技有限公司
IPC: G06T7/73 , G06F16/35 , G06F40/20 , G06N3/0455 , G06N3/0499 , G06N3/08
Abstract: 本发明提出了一种具有相对位置感知能力的3D视觉定位方法和系统,属于3D视觉定位领域,从3D点云中采样种子点,提取种子点特征;以及,提取语言描述语句的文本特征;从种子点中采样与语言描述语句相关的目标物体的关键点;利用包含文本‑视觉双解码器的3D相对位置感知网络分别解码输出目标物体的预测边界框和参考置信度分数,选择具有最高参考置信度分数的关键点来回归目标边界框,将边界框内的物体作为定位结果。还设计了一种软标签策略来辅助训练并进一步提高视觉定位性能,大范围的实验证明了本发明的高效性和有效性。
-
公开(公告)号:CN113657127B
公开(公告)日:2023-08-18
申请号:CN202110935678.9
申请日:2021-08-16
Applicant: 浙江大学
IPC: G11B27/031 , G06N3/045 , G06N3/0464 , G06N3/08
Abstract: 本发明公开了一种手语生成方法和系统,属于手语生成领域。获取手语注解序列与目标手势姿态序列;将手续注解序列通过一个非自回归模型生成预测的手势姿态序列;在非自回归模型中,手语注解序列经过嵌入及位置编码后,由第一Transformer网络转换为注解同步特征序列,由持续时间预测器预测与每个注解对齐的手势姿态序列的对数持续时间,通过长度调节器将注解同步特征序列扩展到姿态同步特征序列,然后依次由另一个Transformer网络和时空图卷积姿态生成器变换为手势姿态序列;根据预测得到的手势姿态序列合成手语视频;在对非自回归模型进行训练时,引入一个外部对齐器以获得每个注解的目标对数持续时间。
-
公开(公告)号:CN116503771A
公开(公告)日:2023-07-28
申请号:CN202310052079.1
申请日:2023-02-02
Applicant: 浙江大学 , 杭州一知智能科技有限公司
IPC: G06V20/40 , G06V20/50 , G06V10/82 , G06N3/0455 , G06N3/0895
Abstract: 本发明公开了一种基于高效关系逼近算法的群体视频描述方法及系统,属于视频理解领域。包括:针对包含目标视频和参考视频的视频组,根据基于高效关系逼近的跨视频共享内容聚合模块,生成目标视频组共享特征和参考视频组共享特征;根据上下文精炼模块,输出参考视频中对于目标视频的补充信息,得到上下文特征。利用解码网络对共享特征和上下文特征的拼接结果进行解码,输出针对于目标视频组的描述文本。本发明能够生成针对群体视频共享内容的描述文本,采用一种新颖的高效关系逼近算法优化模型的时间复杂度到线性级别,并利用对比学习策略精炼上下文特征,有效地改善了模型性能。
-
公开(公告)号:CN116484885A
公开(公告)日:2023-07-25
申请号:CN202310461929.3
申请日:2023-04-26
Applicant: 浙江大学 , 杭州一知智能科技有限公司
IPC: G06F40/58 , G06N3/0895 , G06N3/0499 , G06N3/0455 , G06N3/0464
Abstract: 本发明公开了一种基于对比学习和词粒度权重的视觉语言翻译方法和系统,属于时序对齐的视觉语言翻译领域。提取源域的唇语或指语视频嵌入特征和文本嵌入特征;先对视频嵌入特征进行编码,再通过多头注意力机制与文本嵌入特征交互,解码生成字词概率分布,基于任务的交叉熵损失函数项初步训练;根据解码的注意力向量,计算字词的词粒度多样性权重;将源域随机划分为元训练集和元测试集,采用对比限制的元学习训练策略,通过多样性感知权重控制模型的学习方向,训练具有泛化能力的编码器和解码器。利用训练好的视觉编码器和跨模态解码器完成对未见表达者的视觉语言翻译任务。本发明提高了对域外表达者的泛化能力,有效地改善了视觉语言翻译效果。
-
公开(公告)号:CN111414845B
公开(公告)日:2023-06-16
申请号:CN202010191264.5
申请日:2020-03-18
Applicant: 浙江大学
Abstract: 本发明公开了一种基于空间‑时间图推理网络的多形态语句视频定位方法,属于自然语言视觉定位领域。本发明首先将视频解析为空间‑时间区域图,不仅有每个帧的隐式和显式空间子图,而且有跨帧的时间动态性子图。接下来,将文本线索加入到该空间‑时间区域图中,建立多步跨模态图推理。多步过程可以支持多序关系建模。之后,使用时间定位器确定管道的时间边界,然后应用具有动态选择方法的空间定位器将对象在每个帧中定位,生成平滑的管道。本发明对自然语言进行定位时无需对视频进行修剪,降低了视频定位的成本;可以有效处理疑问句和陈述句,为更高层的自然语言处理和计算视觉结合研究(如视频问答等)提供了技术支持,应用前景广阔。
-
-
-
-
-
-
-
-
-