一种歌声转换方法及歌声转换系统

    公开(公告)号:CN119181370A

    公开(公告)日:2024-12-24

    申请号:CN202411689547.7

    申请日:2024-11-25

    Abstract: 本发明涉及音频处理技术领域,尤其是指一种歌声转换方法及歌声转换系统,所述方法包括:对获取的原始音频数据进行人声分离,得到干净人声数据;对所述干净人声数据进行切片处理,去除静默声音,得到人声切片数据;将所述人声切片数据作为训练数据集,构建歌声转换模型,以最小化损失函数的值为目标,通过所述训练数据集对所述歌声转换模型进行训练,得到训练后的歌声转换模型;将待转换的音频数据输入到所述训练后的歌声转换模型中,得到最终的目标歌声。本发明综合了精细的音频预处理、创新的模型架构与特征提取方法、以及灵活的损失函数设计,实现了高效且高质量的歌声转换。

    一种基于多模态特征融合的视频分类方法、装置及介质

    公开(公告)号:CN119048814A

    公开(公告)日:2024-11-29

    申请号:CN202411103411.3

    申请日:2024-08-13

    Applicant: 江南大学

    Abstract: 本发明属于视频分类技术领域,涉及一种基于多模态特征融合的视频分类方法、装置及介质;将待分类视频的图像特征矩阵和音频特征矩阵拼接并输入至第一多层感知机,输出初始融合特征矩阵;将图像特征矩阵、音频特征矩阵和初始融合特征矩阵输入至沿正传播方向依次串联的L个自对齐融合层进行中期融合;将第L个自对齐融合层输出的目标图像特征矩阵中的cls token向量、目标音频特征矩阵中的cls token向量和融合特征矩阵拼接后,进行后期融合,并输入至第三多层感知机,从而对待分类视频进行分类,本申请提供的视频分类方法通过多阶段特征融合充分融合了不同模态的特征信息,提高了视频分类结果准确性。

    一种基于改进残差网络的图像半色调方法、系统及介质

    公开(公告)号:CN116934618A

    公开(公告)日:2023-10-24

    申请号:CN202310857834.3

    申请日:2023-07-13

    Applicant: 江南大学

    Abstract: 本发明公开了一种基于改进残差网络的图像半色调方法、系统及介质,包括以下步骤:步骤S1:获取图像数据集,划分为训练集和测试集;步骤S2:将所述训练集输入到HalfResNet网络模型进行训练,其中所述HalfResNet网络模型是基于ResNet网络模型进行改进的;步骤S3:训练完成后得到权重参数,将所述权重参数加载至所述HalfResNet网络模型中,针对待处理的图像,运行HalfResNet网络模型可以得到与其对应的伪半色调图像,所述伪半色调图像经过筛选处理输出高质量半色调图像。本发明将深度学习模型与半色调图像相结合,生成的半色调图像能够保持较好的结构细节的同时,极大地提高了处理效率。

    一种基于嵌入式GPU的图像光流计算方法、装置以及设备

    公开(公告)号:CN114140502B

    公开(公告)日:2023-03-24

    申请号:CN202111510467.7

    申请日:2021-12-10

    Applicant: 江南大学

    Abstract: 本发明公开了一种基于嵌入式GPU的图像光流计算方法、装置、设备以及计算机可读存储介质。本发明通过对车载过程中采集的待测图像建立高斯金字塔模型,并根据嵌入式GPU的特性和所述高斯金字塔模型的层数动态调整计算检测窗口的大小,通过所述GPU对单精度浮点计算指令和半精度浮点计算指令进行转换,计算所述待测图像中特征点的光流。本发明所提供的方法通过建立金字塔层的动态窗口,解决了计算LK光流法时出现GPU线程负载不均的问题,通过GPU对单精度浮点计算指令和半精度浮点计算指令进行转换,将LK光流法的计算进行优化,从而提升了光流计算的效率。

    一种SNN工作负载预测方法及系统

    公开(公告)号:CN114090261A

    公开(公告)日:2022-02-25

    申请号:CN202111425332.0

    申请日:2021-11-26

    Applicant: 江南大学

    Abstract: 本发明公开了一种SNN工作负载预测方法及系统,该方法包括以下步骤:S1、基于NEST仿真器构建SNN工作负载模型,所述SNN工作负载模型包括:内存负载模型、计算负载模型和通信负载模型;S2、获取SNN工作负载模型的参数,所述参数包括:内存参数、时间参数和网络参数;S3、根据SNN工作负载模型构建负载计算函数,对获取的参数进行处理,并预测出SNN目标网络在若干节点下的工作负载。本发明SNN工作负载预测方法及系统可以解决SNN工作负载与计算平台的合理匹配问题,准确预测SNN网络在计算平台上的映射结果,在此基础上为计算平台提供映射指导,通过合理分配计算节点的方式,保证平台高性能运行。

    一种基于自适应特征选择和尺度损失函数的文本检测方法

    公开(公告)号:CN112926582A

    公开(公告)日:2021-06-08

    申请号:CN202110341740.1

    申请日:2021-03-30

    Applicant: 江南大学

    Abstract: 本发明公开了一种基于自适应特征选择和尺度损失函数的文本检测方法包括:利用主干网络获取图像中的文本特征,并通过特征金字塔网络进行基础特征的提取;利用自适应特征选择,从所述基础特征中提取更具有代表性的特征信息;利用渐进式扩张算法将所述具有代表性的特征信息进行分割、扩展,并获得最终检测结果。本发明将可形变卷积应用到具有一定几何变形的文本上,使得网络可以适应任意的文本形状,能检测不同大小的文本;还能提取更加丰富、准确的特征,解决了图像中文本尺度变化较大的问题,有效减少误检。

    基于PYNQ集群的高能效NEST类脑仿真器

    公开(公告)号:CN112784975A

    公开(公告)日:2021-05-11

    申请号:CN202011495737.7

    申请日:2020-12-17

    Applicant: 江南大学

    Abstract: 本发明公开了一种基于PYNQ集群的高能效NEST类脑仿真器,S1:基于NEST仿真器建立单节点结构框架,实现Arm端与FPGA部分的数据传输;S2:设计Arm端与FPGA之间的通用数据传输接口;S3:对传输数据进行分类,并设计不同的接口进行传输,实现数据传输优化;S4:将NEST仿真器中的权重值和双精度浮点数据类型进行数据量化转化设计;S5:采用以太网连接PYNQ集群,通过MPI将计算数据平均分配到PYNQ集群中的每个节点,建立PYNQ集群的类脑仿真器,建立PYNQ集群的类脑仿真器。本发明在提高SNN计算速度,降低功耗的同时,保持了NEST的适应性强、规模可扩展的优点,以此为类脑仿真提供一个合适的计算平台。

    一种基于排序损失和双分支网络的人群计数方法及系统

    公开(公告)号:CN112215129A

    公开(公告)日:2021-01-12

    申请号:CN202011075743.7

    申请日:2020-10-10

    Applicant: 江南大学

    Inventor: 吴秦 严芳芳

    Abstract: 本发明公开了一种基于排序损失约束的双分支尺度感知人群计数方法及系统,包括了一个双分支尺度感知网络,该网络由两大部分组成:VGG16的前10层作为基础主干网络,双分支网络作为网络的第二部分。浅层网络分支通过一个浅层全卷积网络提取低层信息(颜色、边缘、形状等),深层网络分支通过一个深层全卷积网络提取高层上下文特征(头部、人脸和身体等);将两个分支提取的不同尺度特征融合,生成预测密度图;并且基于原始图必定包含比任意子图更多或相等的人的事实,提出了利用图像内部约束关系的排序损失函数;并将排序损失与欧氏距离损失结合起来作为最终损失函数,并且进行训练,提高了计数的准确度,解决了密集人群场景下的人群计数问题。

    文本模式识别方法
    29.
    发明公开

    公开(公告)号:CN103123685A

    公开(公告)日:2013-05-29

    申请号:CN201110367595.0

    申请日:2011-11-18

    Applicant: 江南大学

    Abstract: 本发明公开了一种文本模式识别方法,其包括:逐行扫描原始文本文件,记录每个关键词在所述文本文件中出现的次数和位置;根据记录的关键词在所述文本文件中出现的次数和位置将所述文本文件映射为带有多重边的有向加权图,其中所述带有多重边的有向加权图中每个节点代表一个关键词;将带有多重边的有向加权图简化为简单有向加权图;将所述简单有向加权图用矩阵来表示;和根据所获得的矩阵及记录的关键词出现次数,将所述文本文件映射为文本特征向量。与传统方法相比,这种方法可以更多、更有效的保存了原始文本文件的特征信息,使得在进行文本分类及文本相似性计算时能得到更好的结果。

    一种基于目标检测的井盖隐患检测方法

    公开(公告)号:CN119992073A

    公开(公告)日:2025-05-13

    申请号:CN202510450797.3

    申请日:2025-04-11

    Abstract: 本发明涉及深度学习与目标检测技术领域,公开了一种基于目标检测的井盖隐患检测方法,将井盖图像输入目标检测模型的主干网络,经过多个依次串联的提取单元,提取多个不同尺度的初级特征图,并输入基于FPN结构的颈部网络,输出每个尺度对应的融合特征图后,输入头部网络,输出井盖图像的每个尺度对应的预测标签、预测边界框与置信度。动态上采样模块生成采样偏移量来调整采样网络,更好地捕捉小目标信息,提高对井盖图像中细节的检测和分割精度;反转残差注意力下采样模块引入了注意力机制、深度可分离卷积与残差机制,有效压缩数据,减少信息损失,增强对井盖图像关键特征的关注,提升模型对井盖隐患的特征表达,进而提高井盖隐患检测精度。

Patent Agency Ranking