一种基于自注意力及标记分布学习的动作质量评估方法

    公开(公告)号:CN113642513B

    公开(公告)日:2022-11-18

    申请号:CN202111000981.6

    申请日:2021-08-30

    申请人: 东南大学

    摘要: 本发明公开了一种基于自注意力及标记分布学习的动作质量评估方法。该方法首先对视频进行预处理后将各个视频片段输入给特征提取模块,生成每个片段的时空特征;再将各视频片段的时空特征作为序列输入给自注意力模块,得到序列之间包含上下文信息的自注意力特征;将所有自注意力特征拼接并输入给标记分布学习模块,输出预测分布;再利用高斯函数将真实标签转化为真实分布,计算预测分布和真实分布的损失函数,最小化损失,对模型进行训练;最后使用训练完成的模型对测试视频进行评估,获得测试集的预测分布,进一步获得测试数据集中的评估得分。本发明以斯皮尔曼等级相关系数作为评价指标,获得了较好的评估结果,表明本动作质量评估方法的有效性。

    一种基于自监督和语义风格解耦的图像聚类方法

    公开(公告)号:CN113449810B

    公开(公告)日:2022-11-18

    申请号:CN202110803345.0

    申请日:2021-07-15

    申请人: 东南大学

    摘要: 本发明公开了一种基于自监督和语义风格解耦的图像聚类方法。该方法采用自监督编码器学习了一种语义风格的潜在表示,其中语义信息从图像风格中分离出来,可以直接用于聚类分配。为了实现这一目标,首先采用互信息最大化方法将相关信息嵌入到潜在表示中。然后还采用数据增强不变损失的方法,将潜在表示分解为类间语义部分和类内风格部分。此外,对潜在表示施加先验分布,以确保语义向量元素可以直接表示聚类概率。最后,引入了一个自监督损失来学习更全面的实例级特征。本发明可以在各种不同分布的数据集上提取具有判别性的特征表示,有效的提高了图像聚类问题的准确率。

    一种基于区域筛选模块和多层次对比的自监督预训练方法

    公开(公告)号:CN114387454A

    公开(公告)日:2022-04-22

    申请号:CN202210018471.X

    申请日:2022-01-07

    申请人: 东南大学

    摘要: 本发明公开了一种基于区域筛选模块和多层次对比的自监督预训练方法,由于对数据集图片进行人工标注既昂贵又费时,采用无标签的自监督方法对图像分类和目标检测的深度学习模型进行预训练在计算机视觉领域中有着不可或缺的研究意义,为了在这一类数据集中直接进行有效的自监督预训练,本发明提出基于实例区域筛选模块来预训练模型,其功能是在用于对比学习的图片生成两个增强图中筛选出特定数量最可能包含实例信息的块图,并将他们进行匹配,本发明提出了一种对全局、局部以及全局局部综合信息进行多层次对比学习的模块。这种方法用多实例数据集预训练出的模型在图片识别、目标检测等下游任务中取得了良好的精度提升。

    一种基于自监督和语义风格解耦的图像聚类方法

    公开(公告)号:CN113449810A

    公开(公告)日:2021-09-28

    申请号:CN202110803345.0

    申请日:2021-07-15

    申请人: 东南大学

    IPC分类号: G06K9/62

    摘要: 本发明公开了一种基于自监督和语义风格解耦的图像聚类方法。该方法采用自监督编码器学习了一种语义风格的潜在表示,其中语义信息从图像风格中分离出来,可以直接用于聚类分配。为了实现这一目标,首先采用互信息最大化方法将相关信息嵌入到潜在表示中。然后还采用数据增强不变损失的方法,将潜在表示分解为类间语义部分和类内风格部分。此外,对潜在表示施加先验分布,以确保语义向量元素可以直接表示聚类概率。最后,引入了一个自监督损失来学习更全面的实例级特征。本发明可以在各种不同分布的数据集上提取具有判别性的特征表示,有效的提高了图像聚类问题的准确率。

    一种基于非对称双编码器的图文检索方法与系统

    公开(公告)号:CN116738037A

    公开(公告)日:2023-09-12

    申请号:CN202310351857.7

    申请日:2023-04-04

    申请人: 东南大学

    摘要: 本发明公开了一种基于非对称双编码器的图文检索方法及系统,分别使用双编码器和跨模态编码器对图或/和文进行编码,通过计算图或/和文编码后特征的余弦相似度获取相似分数,对相似分数进行排序,选取分数最高的图文作为输出,实现图文检索,一方面,非对称双编码器保留了交叉注意机制,实现了与跨模态编码器一样的高检索性能;另一方面,非对称双编码器独立编码查询和候选特征,这使模型能够克服批量大小限制并挖掘更多信息示例,其中批量大小能够明显地影响编码器的学习,有效地解决纯双编码器模型带来的精度降低以及纯跨模态编码器带来的计算效率过低的问题。

    基于MFCC特征和Transformer集成分类器的LFM信号分类方法

    公开(公告)号:CN115828138A

    公开(公告)日:2023-03-21

    申请号:CN202211554133.4

    申请日:2022-12-06

    申请人: 东南大学

    摘要: 本发明公开了一种基于MFCC特征和Transformer集成分类器的LFM信号分类方法,对采集到的线性调频信号进行信号预处理,得到有效脉冲信号,再进行包括预加重、分帧、加窗、快速傅里叶变化、Mel滤波器组、对数运算、离散余弦变换以及动态差分参数提取的MFCC特征提取过程,得到静态基础特征、一阶差分动态特征和二阶差分动态特征;将三组特征分别输入三个Transformer分类器进行差异性训练,得到预分类特征;再将三组预分类特征进行合并后输入进集成模块,分别进行归一化和三层线性层操作,最后通过一层全连接层,输出得到最终的分类结果。本发明将MFCC特征和Transformer相结合,提出了适用于线性调频信号的Transformer集成分类方法,有效地解决了配置相同的信号源区分困难的问题。

    一种联合注意力机制的3D人体姿态识别双分支网络模型

    公开(公告)号:CN113449681B

    公开(公告)日:2022-11-18

    申请号:CN202110799161.1

    申请日:2021-07-15

    申请人: 东南大学

    摘要: 本发明公开了一种联合注意力机制的3D人体姿态识别双分支网络模型,该模型通过两个并行分支可以同时学习到人体各个关节的特征信息分布和注意力分布,然后通过注意力分布来强化模型对于人体关节的专注能力。其中,注意力分支采用沙漏式网络结构。最后,模型通过根节点模块来解析深度信息,通过根节点相关姿态模块来解析3D人体相关姿态。本发明提出的模型通过双分支结构并行学习人体姿态的特征表示和注意力分布,并借助注意力分布有效提高了模型对人体关节的专注能力,从而极大地降低了模型在人体姿态识别上的关节定位误差。

    一种基于自监督学习的视频聚类方法

    公开(公告)号:CN114445739A

    公开(公告)日:2022-05-06

    申请号:CN202210022698.1

    申请日:2022-01-10

    申请人: 东南大学

    IPC分类号: G06V20/40 G06V10/762 G06K9/62

    摘要: 本发明公开了一种基于自监督的视频聚类方法。该方法利用自监督的方式,学习得到视频在RGB和光流中的特征值,并对该特征值进行聚类。为了实现这一目标,将计算视频在RGB和光流中最近邻作为代理任务,实现无标签的视频特征提取。此外,对视频的每帧图片进行图片聚类,每个视频中出现次数最高的聚类标签作为视频的静态聚类标签。最后,将直接对视频提取得到的聚类特征作为视频的动态特征,结合静态聚类标签得到最终视频聚类结果。本发明可以在视频识别的数据集上提取具有判别性的特征表示,有效的提高了视频对齐问题的准确率。

    一种基于时间感知特征学习的动作质量评估方法

    公开(公告)号:CN113920584A

    公开(公告)日:2022-01-11

    申请号:CN202111207579.5

    申请日:2021-10-15

    申请人: 东南大学

    发明人: 张宇 米思娅 熊伟

    摘要: 本发明公开了一种基于时间感知特征学习的动作质量评估方法。该方法采用3D卷积网络学习了视频中的片段特征,并将片段特征通过时间感知模块去学习片段之间的关系,此关系能够抓住动作的变换信息来提高动作质量评估的准确性。然后通过片段关系去聚合得到整个视频的特征,其中视频特征可以直接用于动作的分数预测。此外,引入了字幕生成以及动作识别两个辅助任务来使得3D卷积网络能够学习到更丰富的特征表示。最后,为了确保时间感知模块能够更准确地抓住动作的变换信息,引入了一个对抗损失来稳定整个模型。本发明能够在动作质量评估数据集上提取到具有判别性的特征表示,有效的提高动作质量分评估问题中的斯皮尔曼相关系数。

    一种用于雷达LFM信号的抗噪声射频指纹识别方法

    公开(公告)号:CN110346763B

    公开(公告)日:2021-03-09

    申请号:CN201910643515.6

    申请日:2019-07-17

    IPC分类号: G01S7/02

    摘要: 本发明公开了一种用于雷达LFM信号的抗噪声射频指纹识别方法,该方法包括在接收到低信噪比信号后,解调得到基带LFM信号,估计信号的频率和调频斜率,对信号进行分段拟合去噪,拼接获得完整的拟合信号,对拟合信号进行一阶差分,并取差分后的信号的包络,最后取包络首尾的采样点作为瞬态信号指纹,包络中间阶段的分段均值作为稳态信号指纹,并用合适的分类方法进行发射机的设备身份识别。本发明可以在信噪比低的情况下有效地提取LFM脉冲信号的物理指纹特征,有效地解决了基于LFM脉冲信号的设备识别方法在现实应用中必须面临的低信噪比问题。