一种基于跨模态重建的平衡多模态视频分析方法及系统

    公开(公告)号:CN117671559A

    公开(公告)日:2024-03-08

    申请号:CN202311562469.X

    申请日:2023-11-22

    Inventor: 陈崇忠 林菲

    Abstract: 本发明公开了一种基于跨模态重建的平衡多模态视频分析方法及系统,该方法首先分别对视频和语音片段进行预处理操作,得到视觉模态的特征矩阵V和语音模态的特征矩阵A。其次将特征矩阵V和特征矩阵A,输入到跨模态重建编码器,生成新模态N。然后将新模态N分别与特征矩阵V以及特征矩阵A进行跨模态对比学习,再进行多模态融合得到融合后的特征矩阵FAV。最后将特征矩阵FAV输入到多模态视频分析网络,通过计算模态间的差异化比率,对模型的训练过程执行多模态平衡调制策略,得到视频分析结果。本发明提高了整体的准确率,充分解决了多模态之间异质性差异的问题。

    基于人脸网格的语音合成系统
    2.
    发明公开

    公开(公告)号:CN117275452A

    公开(公告)日:2023-12-22

    申请号:CN202310620975.3

    申请日:2023-05-30

    Inventor: 金宸极 林菲 张聪

    Abstract: 本发明属于计算机视觉技术领域,尤其涉及一种带基于人脸网格的语音合成系统。包括如下步骤:S1.搭建唇动模型,通过编码器从视频数据中提取唇动高级特征;S2.视频语音识别,选择视频作为模型的输出,并通过唇动视频预测说话者所讲述的内容,形成文本;S3.文本到语音生成,通过自回归的方式合成文本所对应的梅尔频谱,再通过音频解码器合成音频波形。与现有的技术相比,本基于人脸网格的语音合成系统的优点在于:能够提高正确度,直接通过高级特征(唇部动作)进行唇读。

    基于遮挡关键区域的无监督行人重识别方法

    公开(公告)号:CN115731576A

    公开(公告)日:2023-03-03

    申请号:CN202211474511.8

    申请日:2022-11-23

    Inventor: 谢将凤 林菲 张聪

    Abstract: 本发明提供了基于遮挡关键区域的无监督行人重识别方法,包括:对无标签的图片数据集进行预处理,输入到网络模型中;构建深度学习模型,使用空间注意力模块获取图片的关键区域并进行遮挡;对图片的特征编码进行聚类,得到图片的伪标签;构建基于难样本更新策略和基于聚簇更新的损失函数;根据损失函数的变化情况,得到训练好的网络模型;将待识别的行人图片和视频输入训练好的网络模型,输出行人重识别结果。本方法能避免网络模型过于关注图像的局部特征或全局特征,有效提高了模型的泛化性和鲁棒性。

    一种基于双线性映射的车载自组织网络的批认证方法

    公开(公告)号:CN114071463A

    公开(公告)日:2022-02-18

    申请号:CN202111359978.3

    申请日:2021-11-17

    Abstract: 本发明公开了一种基于双线性映射的车载自组织网络的批认证方法。首先,TA设置循环群的阶数及其相关的映射,选择密钥并根据密钥生成公钥,公开相关参数并进入就绪状态。相关设备在向TA提交注册请求时,TA采用安全的单项哈希函数生成设备密钥,并发送至该设备。设备在进行签名时,车辆采取随机数的方式对密钥进行掩盖,并生成相关验证信息发送至RSU,RSU则根据双线性映射的方法对车辆进行身份认证;当车辆之间进行通信时,通过消息签名以保证消息的完整性,相关车辆在收到相关信息后采取双线性映射的方法对其进行验证;通过对双线性映射算法的优化,减少算法时间复杂度的目的,减少时延;采取二分查找的方式,降低查找成本。

    一种基于WebGL的PLC组态虚拟仿真实验系统

    公开(公告)号:CN112068457A

    公开(公告)日:2020-12-11

    申请号:CN202010825349.4

    申请日:2020-08-17

    Abstract: 本发明公开了一种基于WebGL的PLC组态虚拟仿真实验系统。包括虚拟仿真模型库构建、三维工业场景构建和虚拟模仿真运行模块;虚拟仿真模型库构建用于管理三维模型,并将模型碰撞与运动方式链接供场景构建和仿真运行使用。三维工业场景构建用于快速构建三维工业场景并进行仿真模拟配置。虚拟仿真运行则通过虚拟仿真场景与硬件设备PLC互连来实现模拟控制。本发明可跨平台提供三维虚拟工业场景下的PLC程序运行检视功能,可有效解决实验场地限制、设备昂贵和实验场景适用性等问题,从而极大地提高工业控制领域人才的培养质量。

    基于堆模型融合的公共自行车流量变化量预测方法

    公开(公告)号:CN107045673A

    公开(公告)日:2017-08-15

    申请号:CN201710206045.8

    申请日:2017-03-31

    Inventor: 姜剑 林菲

    CPC classification number: G06Q10/06375 G06K9/6215 G06K9/6223 G06K9/6289

    Abstract: 本发明公开了一种基于堆融合模型的公共自行车流量变化量预测方法。本发明步骤如下:1.采用了公共自行车租借记录数据和气象数据融合的方式提取特征,从时间、空间、气象、历史、聚类等几个角度构造特征向量;2.采用结合地理位置和租还关系为距离相似度矩阵,利用聚类算法进行聚类,并将聚类特征构造到特征向量中;3.按照特征类型,将特征向量分为五个分组,利用基于梯度提升树算法的机器学习系统训练出五个基础模型,然后通过交叉验证的方式训练特征,将五组基础模型的结果作为特征训练了堆模型。本发明保证了基础模型之间存在一定的差异性,最后采用交叉验证的方式构造堆模型,提升模型的准确度,具有较好的预测精度,误差较低。

    一种基于语义一致性的多模态虚假信息检测方法

    公开(公告)号:CN119557695A

    公开(公告)日:2025-03-04

    申请号:CN202411631510.9

    申请日:2024-11-15

    Inventor: 王靖 林菲

    Abstract: 本发明涉及一种基于语义一致性的多模态虚假信息检测方法,旨在解决多模态虚假信息检测中模态间语义交互的问题。具体包括以下步骤:首先获取社交网络中新闻的多模态数据,并对文本和图像预处理。然后分别构建文本和图像的全局与局部特征提取器。通过提取的文本局部特征与图像局部特征进行局部语义一致性检测,将获取的全局特征进行全局语义一致性检测,并结合两者生成联合语义一致性结果,采用注意力机制文本和图像特征进行多模态融合,通过对文本特征和图像特征融合后的多模态特征与联合语义一致性结果综合分析从多维度对虚假信息判别并建立损失函数对模型进行优化,从而实现对虚假信息的检测。本发明能有效提高多模态虚假信息检测的准确率,提高自动化检测多模态虚假信息。

    一种基于双线性映射的车载自组织网络的批认证方法

    公开(公告)号:CN114071463B

    公开(公告)日:2024-03-26

    申请号:CN202111359978.3

    申请日:2021-11-17

    Abstract: 本发明公开了一种基于双线性映射的车载自组织网络的批认证方法。首先,TA设置循环群的阶数及其相关的映射,选择密钥并根据密钥生成公钥,公开相关参数并进入就绪状态。相关设备在向TA提交注册请求时,TA采用安全的单项哈希函数生成设备密钥,并发送至该设备。设备在进行签名时,车辆采取随机数的方式对密钥进行掩盖,并生成相关验证信息发送至RSU,RSU则根据双线性映射的方法对车辆进行身份认证;当车辆之间进行通信时,通过消息签名以保证消息的完整性,相关车辆在收到相关信息后采取双线性映射的方法对其进行验证;通过对双线性映射算法的优化,减少算法时间复杂度的目的,减少时延;采取二分查找的方式,降低查找成本。

    一种多模态视频分类方法及其系统

    公开(公告)号:CN117392582A

    公开(公告)日:2024-01-12

    申请号:CN202311329631.3

    申请日:2023-10-16

    Inventor: 王卫跃 林菲

    Abstract: 本发明公开了一种多模态视频分类方法,基于语音和视觉模态并行的ResNet18和全局联动的门控机制,包括以下步骤:S1:使用两个结构一致的resnet18编码器,分别提取语音,图像模态的特征表示,并将其作为门控跨模态特征融合的输入特征。S2:设计一个全局联动的门控机制,其由跨模态门控融合模块和基于门控辅助loss的目标函数两部分组成,是平衡不同模态的核心所在。S3:第一部分是借鉴GRU门控原理设计的跨模态门控融合模块,接受语音和图像模态的特征输入,并自动调节不同模态的输入占比再进一步进行交互融合,输出融合后的跨模态特征。S4:第二部分将单一模态的loss作为辅助loss,同时将第一部分中的门控参数进行一定处理后作为辅助loss的权重,形成模型的自适应门控调节机制。

Patent Agency Ranking