一种粤语新闻视频中自动裁剪含主播的视听数据集的方法

    公开(公告)号:CN115460462B

    公开(公告)日:2024-10-01

    申请号:CN202211132338.3

    申请日:2022-09-17

    Applicant: 东南大学

    Abstract: 本发明公开了一种粤语新闻视频中自动裁剪含主播的视听数据集的方法,该方法把粤语新闻视频裁剪为视频、语音两个模态的数据集合,其中每一段数据都只包含主持人进行新闻播报的场景。该方法基于HSV图像信息检测算法进行整个新闻场景的分割,基于FaceRecognition人脸检测库和人脸特征提取工具进行包含目标主播人脸的视频识别,基于语音活动检测算法对音频进行切分,再根据切分停顿点对视频进行切分,实现自动完成粤语新闻中裁剪含主播的视听数据集的制作。通过设计的合理的流程和使用高效的算法,提高了构建粤语高质量视听数据集的效率,并能够方便地推广到其他语言的视听数据集制作中,最终能应用于如粤语场景下语音去噪、音视频驱动的人脸生成模型的训练中。

    一种基于注意力机制的开放域实体表示学习方法

    公开(公告)号:CN118193755A

    公开(公告)日:2024-06-14

    申请号:CN202410515360.9

    申请日:2024-04-26

    Applicant: 东南大学

    Abstract: 本发明公开了一种基于注意力机制的开放域实体表示学习方法,具体包括以下步骤:1、知识图谱数据预处理,从知识图谱中采样开放域知识图谱数据集;2、对知识图谱训练集中的实体和关系进行初始化向量表示,并初始化编码器参数;3、通过解码器和损失函数进行训练,更新训练集中实体和关系的向量表示并更新编码器的参数4、利用知识图谱验证集进行验证,将编码器参数调整到最优5、在开放域知识图谱测试集上执行包含开放域实体的链接预测实验,并统计结果。本发明通过改进的注意力机制,能够获取高质量的开放域实体特征表示。

    一种军事新闻视频中自动裁剪的语音合成数据集制作方法

    公开(公告)号:CN116208801A

    公开(公告)日:2023-06-02

    申请号:CN202310242449.8

    申请日:2023-03-14

    Applicant: 东南大学

    Abstract: 本发明公开了一种军事新闻视频中自动裁剪的语音合成数据集制作方法,该方法采用FFmpeg对视频的原始语音模态、视频模态进行提取,基于语音的pcm文件判断是否存在静默段,对静默段语音进行删除,基于科大讯飞的语音转文字功能,对每个语音文件进行文字转换,为了适应语音合成模型,还需要每段文字对应的拼音以及对齐的音素,基于python的pypinyin库,完成文字到拼音的转换,基于MFA模型、普通话模型、普通话词典完成音素对齐任务,实现军事新闻视频中自动裁剪出语音合成数据集的工作。通过设计的合理的流程和使用高效的算法,提高了构建高质量用于军事语音合成任务的数据集的效率,并能够方便地推广到其他任意场景下的语音合成数据集制作中。

    融合条件随机与残差的三维U-Net大脑肿瘤分割方法

    公开(公告)号:CN110706214B

    公开(公告)日:2022-06-17

    申请号:CN201910899952.4

    申请日:2019-09-23

    Applicant: 东南大学

    Abstract: 本发明提供了融合条件随机与残差的三维U‑Net大脑肿瘤分割方法,包括:对训练集进行三层级联网络架构训练,获得卷积神经网络的模型;通过卷积神经网络模型,对测试集进行测试,获得对应大脑肿瘤每一个分类的概率矩阵;对概率矩阵进行后处理,更新概率,获得最终的大脑肿瘤分割结果。本发明分步简化问题并且获得更好的效果,相较传统方法更有优势,其采用的网络具有更好的学习能力,并且引入残差块来减小网络层数加深带来的梯度爆炸、梯度消失和网络性能退化的影响;在最大程度上使用了三维空间的信息。

    一种多通带图卷积融合的脑连接分类方法

    公开(公告)号:CN114287908A

    公开(公告)日:2022-04-08

    申请号:CN202111645025.3

    申请日:2021-12-29

    Applicant: 东南大学

    Abstract: 本发明提供了一种多通带图卷积融合的脑连接分类方法,通过多通带特征融合达到脑连接分类的目的。本发明主要包括全脑功能连接影像特征提取和多通带图卷积融合网络两个主要部分。针对所有受试者功能性核磁共振数据,本发明在现有的图卷积网络的基础上,引入图散射卷积融合低通滤波和带通滤波,实现多通带特征学习。并且,进一步采用残差过滤模块和对抗生成模块降低噪声的影响,提高对干扰信息的鲁棒性,提取出稳定、高区分度的特征,进而实现脑连接分类目标任务。

    一种基于残差密集U形网络模型的丘脑分割方法

    公开(公告)号:CN111080575A

    公开(公告)日:2020-04-28

    申请号:CN201911154760.7

    申请日:2019-11-22

    Applicant: 东南大学

    Abstract: 本发明公开了一种基于残差密集U形网络模型的丘脑分割方法,包括如下步骤:S1:对训练样本图像数据进行预处理;S2:构建待训练的语义分割网络模型;S3:将预处理后的训练样本图像,作为待训练的语义分割网络模型的输入,对待训练的语义分割网络模型进行训练,获取训练好的丘脑分割模型;S4:将待分割原始图像进行轴向面切片,并作为训练好的丘脑分割模型的输入,获取待分割原始图像的初步分割图像;S5:将待分割原始图像的初步分割图像进行拼接,获得三维丘脑分割结果图像。本发明的丘脑分割方法通过运用残差学习,增加了网络深度使得网络整体特征提取能力,解决了增加深度带来的副作用,即梯度弥散问题,从而使得丘脑组织更易提取。

Patent Agency Ranking