基于反事实表征学习的端云协同计算方法及系统

    公开(公告)号:CN118982710A

    公开(公告)日:2024-11-19

    申请号:CN202411054328.1

    申请日:2024-08-02

    Abstract: 本发明公开了一种基于反事实表征学习的端云协同计算方法及系统,该方法主要针对端云协同环境下数据异质性导致的辛普森悖论问题,本方法通过识别和替换端侧本地图像数据的关键特征,生成反事实正负样本进行对比学习,以逼近全局数据分布,减轻端侧图像分类模型与全局模型间的偏差;为确保特征独立可控,引入因子去相关损失约束特征间相关性本发明的方法提供了一种有效应对数据异质性、缓解辛普森悖论、实现端向云去偏汇聚的联邦学习,在非IID与IID数据分布下有效地提高了全局模型的性能。

    基于端云协同的多模态在线试题推荐方法、系统及介质

    公开(公告)号:CN118708803A

    公开(公告)日:2024-09-27

    申请号:CN202410697866.6

    申请日:2024-05-31

    Abstract: 本发明公开了一种基于端云协同的多模态在线试题推荐方法、系统及介质。该方法通过在设备端获取用户的做题记录、题目属性、以及作答过程中的表情信息,在设备端进行认知诊断以获得用户知识雷达图诊断结果,根据诊断结果实现自适应试题推荐。为解决设备端推荐题库的限制,设计了云端选题策略和设备端选题策略,可以根据用户需求从题目类型和质量的角度选择多样性的题目,由云端将这些题目下发至用户,并移除设备端中的冗余题目。本发明的方法实现了端云协同下的自适应考试,通过融合用户表情信息进行精准诊断,并依据诊断结果实现个性化试题推荐,解决了传统方法无法适用于大规模题库的问题,具有推荐效果好、诊断精准等优点。

    手语生成方法和系统
    7.
    发明授权

    公开(公告)号:CN113657127B

    公开(公告)日:2023-08-18

    申请号:CN202110935678.9

    申请日:2021-08-16

    Applicant: 浙江大学

    Abstract: 本发明公开了一种手语生成方法和系统,属于手语生成领域。获取手语注解序列与目标手势姿态序列;将手续注解序列通过一个非自回归模型生成预测的手势姿态序列;在非自回归模型中,手语注解序列经过嵌入及位置编码后,由第一Transformer网络转换为注解同步特征序列,由持续时间预测器预测与每个注解对齐的手势姿态序列的对数持续时间,通过长度调节器将注解同步特征序列扩展到姿态同步特征序列,然后依次由另一个Transformer网络和时空图卷积姿态生成器变换为手势姿态序列;根据预测得到的手势姿态序列合成手语视频;在对非自回归模型进行训练时,引入一个外部对齐器以获得每个注解的目标对数持续时间。

    基于高效关系逼近算法的群体视频描述方法及系统

    公开(公告)号:CN116503771A

    公开(公告)日:2023-07-28

    申请号:CN202310052079.1

    申请日:2023-02-02

    Abstract: 本发明公开了一种基于高效关系逼近算法的群体视频描述方法及系统,属于视频理解领域。包括:针对包含目标视频和参考视频的视频组,根据基于高效关系逼近的跨视频共享内容聚合模块,生成目标视频组共享特征和参考视频组共享特征;根据上下文精炼模块,输出参考视频中对于目标视频的补充信息,得到上下文特征。利用解码网络对共享特征和上下文特征的拼接结果进行解码,输出针对于目标视频组的描述文本。本发明能够生成针对群体视频共享内容的描述文本,采用一种新颖的高效关系逼近算法优化模型的时间复杂度到线性级别,并利用对比学习策略精炼上下文特征,有效地改善了模型性能。

    基于对比学习和词粒度权重的视觉语言翻译方法和系统

    公开(公告)号:CN116484885A

    公开(公告)日:2023-07-25

    申请号:CN202310461929.3

    申请日:2023-04-26

    Abstract: 本发明公开了一种基于对比学习和词粒度权重的视觉语言翻译方法和系统,属于时序对齐的视觉语言翻译领域。提取源域的唇语或指语视频嵌入特征和文本嵌入特征;先对视频嵌入特征进行编码,再通过多头注意力机制与文本嵌入特征交互,解码生成字词概率分布,基于任务的交叉熵损失函数项初步训练;根据解码的注意力向量,计算字词的词粒度多样性权重;将源域随机划分为元训练集和元测试集,采用对比限制的元学习训练策略,通过多样性感知权重控制模型的学习方向,训练具有泛化能力的编码器和解码器。利用训练好的视觉编码器和跨模态解码器完成对未见表达者的视觉语言翻译任务。本发明提高了对域外表达者的泛化能力,有效地改善了视觉语言翻译效果。

    基于空间-时间图推理网络的多形态语句视频定位方法

    公开(公告)号:CN111414845B

    公开(公告)日:2023-06-16

    申请号:CN202010191264.5

    申请日:2020-03-18

    Applicant: 浙江大学

    Inventor: 赵洲 张品涵 张竹

    Abstract: 本发明公开了一种基于空间‑时间图推理网络的多形态语句视频定位方法,属于自然语言视觉定位领域。本发明首先将视频解析为空间‑时间区域图,不仅有每个帧的隐式和显式空间子图,而且有跨帧的时间动态性子图。接下来,将文本线索加入到该空间‑时间区域图中,建立多步跨模态图推理。多步过程可以支持多序关系建模。之后,使用时间定位器确定管道的时间边界,然后应用具有动态选择方法的空间定位器将对象在每个帧中定位,生成平滑的管道。本发明对自然语言进行定位时无需对视频进行修剪,降低了视频定位的成本;可以有效处理疑问句和陈述句,为更高层的自然语言处理和计算视觉结合研究(如视频问答等)提供了技术支持,应用前景广阔。

Patent Agency Ranking