-
公开(公告)号:CN115460462B
公开(公告)日:2024-10-01
申请号:CN202211132338.3
申请日:2022-09-17
Applicant: 东南大学
IPC: H04N21/4402 , H04N21/845 , H04N21/439 , G10L13/02 , G10L21/0208 , G06V20/40 , G06V40/16 , G06F16/483
Abstract: 本发明公开了一种粤语新闻视频中自动裁剪含主播的视听数据集的方法,该方法把粤语新闻视频裁剪为视频、语音两个模态的数据集合,其中每一段数据都只包含主持人进行新闻播报的场景。该方法基于HSV图像信息检测算法进行整个新闻场景的分割,基于FaceRecognition人脸检测库和人脸特征提取工具进行包含目标主播人脸的视频识别,基于语音活动检测算法对音频进行切分,再根据切分停顿点对视频进行切分,实现自动完成粤语新闻中裁剪含主播的视听数据集的制作。通过设计的合理的流程和使用高效的算法,提高了构建粤语高质量视听数据集的效率,并能够方便地推广到其他语言的视听数据集制作中,最终能应用于如粤语场景下语音去噪、音视频驱动的人脸生成模型的训练中。
-
公开(公告)号:CN118193755A
公开(公告)日:2024-06-14
申请号:CN202410515360.9
申请日:2024-04-26
Applicant: 东南大学
IPC: G06F16/36 , G06N5/02 , G06N3/0455 , G06F18/214 , G06F18/24 , G06N3/084
Abstract: 本发明公开了一种基于注意力机制的开放域实体表示学习方法,具体包括以下步骤:1、知识图谱数据预处理,从知识图谱中采样开放域知识图谱数据集;2、对知识图谱训练集中的实体和关系进行初始化向量表示,并初始化编码器参数;3、通过解码器和损失函数进行训练,更新训练集中实体和关系的向量表示并更新编码器的参数4、利用知识图谱验证集进行验证,将编码器参数调整到最优5、在开放域知识图谱测试集上执行包含开放域实体的链接预测实验,并统计结果。本发明通过改进的注意力机制,能够获取高质量的开放域实体特征表示。
-
公开(公告)号:CN113823308B
公开(公告)日:2023-11-28
申请号:CN202111100709.5
申请日:2021-09-18
Applicant: 东南大学
IPC: G10L21/0208 , G10L21/0232 , G10L21/0264 , G10L25/30 , G06N3/0455 , G06N3/0464 , G06N3/0442 , G06N3/048 , G06N3/08
Abstract: 评估、短时客观可懂度等多个评估指标上均取得本发明提供了一种仅使用单个带噪语音样 了更好的结果。本进行语音去噪的方法。该方法包括以下步骤:真实世界的不同噪声类型生成带噪语音样本;(2)对于单个带噪语音样本,使用一个语音下采样器生成一对语音训练样本;(3)将训练的输入语音转化为频谱图,然后输入去噪网络进行训练,该去噪网络在十层深度复数Unet的编码器和解码器之间叠加了复数两级Transformer模块;(4)训练使用的损失函数由基础损失和正则化损失组成,基础损失由网络特点决定,正则化损失(1)对于干净的语音信号,分别叠加合成噪声和
-
公开(公告)号:CN116208801A
公开(公告)日:2023-06-02
申请号:CN202310242449.8
申请日:2023-03-14
Applicant: 东南大学
IPC: H04N21/439 , H04N21/44 , G10L13/08 , G10L13/02 , H04N21/2187 , H04N21/478
Abstract: 本发明公开了一种军事新闻视频中自动裁剪的语音合成数据集制作方法,该方法采用FFmpeg对视频的原始语音模态、视频模态进行提取,基于语音的pcm文件判断是否存在静默段,对静默段语音进行删除,基于科大讯飞的语音转文字功能,对每个语音文件进行文字转换,为了适应语音合成模型,还需要每段文字对应的拼音以及对齐的音素,基于python的pypinyin库,完成文字到拼音的转换,基于MFA模型、普通话模型、普通话词典完成音素对齐任务,实现军事新闻视频中自动裁剪出语音合成数据集的工作。通过设计的合理的流程和使用高效的算法,提高了构建高质量用于军事语音合成任务的数据集的效率,并能够方便地推广到其他任意场景下的语音合成数据集制作中。
-
公开(公告)号:CN110909207B
公开(公告)日:2023-06-02
申请号:CN201910845200.X
申请日:2019-09-08
Applicant: 东南大学
IPC: G06F16/74 , G06F16/783 , G06T5/40 , G06T7/90
Abstract: 本发明公开了一种包含手语的新闻类视频描述数据集构建方法,该方法把新闻类视频构建成包含音频、视频、手语、语言描述的数据集;该方法利用色差直方图算法进行视频的自动分割,并使用ffmpeg完成视频信息的自动提取,最后构建图形用户界面并根据用户输入信息自动生成视频描述与视频信息json文件。本发明通过利用新闻视频数据与手语信息构建数据集,为视频描述网络的研究以及视频描述技术在残疾人士服务中的应用提供了支持。
-
公开(公告)号:CN115205920A
公开(公告)日:2022-10-18
申请号:CN202210228919.0
申请日:2022-03-08
Applicant: 东南大学
IPC: G06V40/16 , G06V20/40 , G06V10/74 , G06V10/764 , G06V10/82 , G06K9/62 , G06N3/04 , G10L21/0272
Abstract: 本发明公开了一种利用新闻发布会视频制作包含戴口罩人脸的语音分离数据集的方法,该方法:把新闻发布会视频裁剪为图像、视频以及语音三个模态的数据集合,基于戴口罩检测预训练模型,获取到每一帧都戴口罩的画面,从而组成戴口罩的视频,以此为数据源,再基于感知哈希算法把视频关键帧与自定义人脸特征库进行比对,实现视频裁剪与分类的过程全自动。本发明通过利用自定义的人脸库裁剪新闻发布会视频中的多模态数据,提高构建包含戴口罩人脸的语音分离数据集的效率。
-
公开(公告)号:CN114973375A
公开(公告)日:2022-08-30
申请号:CN202210612348.0
申请日:2022-05-31
Applicant: 东南大学
Abstract: 本发明公开了一种基于面部微表情的可控人脸生成方法,包含以下步骤:(1)人脸图像的预处理;(2)构造面部微表情驱动的卷积神经网络;(3)基于面部微表情参数进行可控人脸生成。本发明通过构造卷积神经网络,能够利用面部微表情提取人物脸部的内在运动细节,使得构造的网络可以人为控制生成结果,同时保持了优异的图像质量。
-
公开(公告)号:CN110706214B
公开(公告)日:2022-06-17
申请号:CN201910899952.4
申请日:2019-09-23
Applicant: 东南大学
Abstract: 本发明提供了融合条件随机与残差的三维U‑Net大脑肿瘤分割方法,包括:对训练集进行三层级联网络架构训练,获得卷积神经网络的模型;通过卷积神经网络模型,对测试集进行测试,获得对应大脑肿瘤每一个分类的概率矩阵;对概率矩阵进行后处理,更新概率,获得最终的大脑肿瘤分割结果。本发明分步简化问题并且获得更好的效果,相较传统方法更有优势,其采用的网络具有更好的学习能力,并且引入残差块来减小网络层数加深带来的梯度爆炸、梯度消失和网络性能退化的影响;在最大程度上使用了三维空间的信息。
-
公开(公告)号:CN114287908A
公开(公告)日:2022-04-08
申请号:CN202111645025.3
申请日:2021-12-29
Applicant: 东南大学
IPC: A61B5/055
Abstract: 本发明提供了一种多通带图卷积融合的脑连接分类方法,通过多通带特征融合达到脑连接分类的目的。本发明主要包括全脑功能连接影像特征提取和多通带图卷积融合网络两个主要部分。针对所有受试者功能性核磁共振数据,本发明在现有的图卷积网络的基础上,引入图散射卷积融合低通滤波和带通滤波,实现多通带特征学习。并且,进一步采用残差过滤模块和对抗生成模块降低噪声的影响,提高对干扰信息的鲁棒性,提取出稳定、高区分度的特征,进而实现脑连接分类目标任务。
-
公开(公告)号:CN111080575A
公开(公告)日:2020-04-28
申请号:CN201911154760.7
申请日:2019-11-22
Applicant: 东南大学
Abstract: 本发明公开了一种基于残差密集U形网络模型的丘脑分割方法,包括如下步骤:S1:对训练样本图像数据进行预处理;S2:构建待训练的语义分割网络模型;S3:将预处理后的训练样本图像,作为待训练的语义分割网络模型的输入,对待训练的语义分割网络模型进行训练,获取训练好的丘脑分割模型;S4:将待分割原始图像进行轴向面切片,并作为训练好的丘脑分割模型的输入,获取待分割原始图像的初步分割图像;S5:将待分割原始图像的初步分割图像进行拼接,获得三维丘脑分割结果图像。本发明的丘脑分割方法通过运用残差学习,增加了网络深度使得网络整体特征提取能力,解决了增加深度带来的副作用,即梯度弥散问题,从而使得丘脑组织更易提取。
-
-
-
-
-
-
-
-
-