一种提升合成音频自然度以及降噪的方法

    公开(公告)号:CN119785762A

    公开(公告)日:2025-04-08

    申请号:CN202510003560.0

    申请日:2025-01-02

    Applicant: 东南大学

    Abstract: 本发明涉及一种提升合成音频自然度以及降噪的方法,包括以下步骤:步骤1,构建音素编码器,步骤2,构建方差适配器,步骤3,构建频谱降噪器,实现提升合成音频自然度以及降噪;该方案提出在音素编码器阶段,加入基于Transformer的双向编码器,能够利用较少的训练资源,完成语音合成模型的训练;本发明首次将具有选择性状态空间的线性时间序列建模用于语音合成任务,借助于小波分解在图像去噪领域的应用,将其引入语音合成网络,成功地减少了生成音频的噪声。

    一种基于频域信息融合的半监督冠状动脉分割方法

    公开(公告)号:CN118864492A

    公开(公告)日:2024-10-29

    申请号:CN202410860508.2

    申请日:2024-06-28

    Applicant: 东南大学

    Abstract: 本发明公开了一种基于频域信息融合的半监督冠状动脉分割方法,该方法首先获取冠状动脉计算机断层扫描血管造影(Coronary Computed Tomography Angiography,CCTA)图像,将其存储为NIFTI格式;然后对NIFTI格式数据进行手工标注以获取冠状动脉的具体结构,并构建冠状动脉数据集;将冠状动脉数据集输入到基于频域信息融合的半监督分割网络中进行训练,得到训练模型;利用得到的训练模型对新的冠状动脉数据进行预测,获得冠状动脉分割掩模。本发明提出了一种基于频域信息融合的半监督冠状动脉分割方法,能够在少量手工标注的情况下获得高准确率的输出结果,同时解决冠状动脉难分割的问题,本发明能够通过训练好的深度学习分割模型直接得到冠状动脉分割掩膜,为临床医生的影像诊断工作提供了技术支持。

    一种基于视觉语言模型的EGFR基因突变少样本检测方法

    公开(公告)号:CN118447922A

    公开(公告)日:2024-08-06

    申请号:CN202410614412.8

    申请日:2024-05-17

    Applicant: 东南大学

    Abstract: 本发明公开了一种基于视觉语言模型的EGFR基因突变少样本检测方法,首先,向预训练的视觉语言模型输入少量PET‑CT图像与疾病描述,通过这些少量样本筛选出有效的疾病描述并计算出超参数;然后,输入剩余PET‑CT图像与筛选出的疾病描述,利用已获得的超参数,对剩余样本进行预测分类;最后,统计分类结果,计算识别率与其他指标。本发明构造的基于视觉语言模型的EGFR基因突变少样本检测方法,摒弃了传统的训练神经网络的方法,应用视觉与语言两个模态,构造PET、CT双通道,引入疾病描述的筛选机制,在不训练模型的基础上,发掘了预训练模型的潜能,在非小细胞肺癌EGFR基因突变的检测任务上获得了优秀的结果。

    一种基于时空图常微分方程的地铁客流量预测方法及系统

    公开(公告)号:CN117592602A

    公开(公告)日:2024-02-23

    申请号:CN202311557188.5

    申请日:2023-11-21

    Applicant: 东南大学

    Abstract: 本发明公开了一种基于时空图常微分方程的地铁客流量预测方法及系统,所述方法包括下述步骤:采集并处理原始地铁AFC历史数据,利用地理拓扑信息和原始历史客流量数据构建一组地铁网络时空关系图;将处理后得到的历史客流量和图组作为模型输入;建立一种新的地铁客流量预测网络,在每个时空层中,利用两个时序自注意力模块和时序卷积模块来获取节点之间的动态多尺度的时间依赖性,利用基于张量的常微分方程来捕获空间依赖性,并通过跳跃连接将每个时空层得到的隐藏状态馈送到输出层,对未来时刻地铁客流量进行预测。本发明能够有效结合时空特征,有效减轻图神经网络中常见的过平滑问题,在地铁客流量数据集中实现较好预测性能。

    一种深度多模态图卷积的脑图分类方法

    公开(公告)号:CN113592836B

    公开(公告)日:2022-11-18

    申请号:CN202110898144.3

    申请日:2021-08-05

    Applicant: 东南大学

    Abstract: 本发明提供了一种深度多模态图卷积的脑图分类方法,通过将不同模态间脑图进行融合达到脑图的分类目的。首先进行多模态脑拓扑图构建,利用静息态功能磁共振数据与弥散张量磁共振数据依据其生物学意义构建脑拓扑图;然后,进行多模态融合,包含功能‑结构融合和动态‑静态融合两个部分。本发明不仅使用了多种模态特征,并对其进行了融合,能够充分利用特征间的相似性和互补性,这使得进行脑图分类的结果更加准确。

    一种基于超体素匹配的脑组织分割方法

    公开(公告)号:CN110751664B

    公开(公告)日:2022-11-18

    申请号:CN201910931927.X

    申请日:2019-09-29

    Applicant: 东南大学

    Abstract: 本发明公开了一种基于超体素匹配的脑组织分割方法,步骤如下:S1:所有的磁共振图像通过SLIC算法均生成超体素数据;S2:预处理所有的磁共振图像;S3:获取得到每个磁共振图像的超体素特征;S4:计算每个超体素和相邻超体素之间的特征梯度,并获取特征梯度之和;S5:确定模板图像中每个超体素对应的标签;S6:将每个磁共振图像的超体素特征、特征梯度之和串联为一个向量,根据向量计算待匹配磁共振图像和模板图像中每个超体素的相似度;S7:将待匹配磁共振图像和模板图像进行匹配,确定出每个待匹配磁共振图像的分割结果。本发明在匹配的过程中考虑超体素自身特征的同时,也能够考虑相邻超体素之间的关系,进而能够得到有效的匹配结果。

    一种真实场景下的多模态数据集的构建方法

    公开(公告)号:CN115019358A

    公开(公告)日:2022-09-06

    申请号:CN202110951389.8

    申请日:2021-08-18

    Applicant: 东南大学

    Abstract: 本发明公开了一种真实场景下的多模态数据集的构建方法,该方法将慕课授课视频构建成包含音频、图像、视频三个模态的数据集;该方法使用多任务卷积神经网络进行人脸检测,使用FaceNet提取说话人特征并构建人脸库,在扫描视频的过程中逐步扩充完善人脸库,通过计算视频截取的人脸与人脸库中人脸的欧氏距离,对视频进行分类,并结合ffmpeg完成批量自动化视频分类和分割,构造出同时带有说话人面部视觉信息和说话人声音信息的数据集。本发明通过采集慕课网授课视频,保证了数据集的音频多样性和场景真实性,有助于训练音频相关深度学习模型的泛化性能;且全自动批处理方法提高了多模态数据集的构建效率。

Patent Agency Ranking