一种基于变分自编码器多通道声纹盲源分离方法

    公开(公告)号:CN116825126A

    公开(公告)日:2023-09-29

    申请号:CN202310481811.7

    申请日:2023-04-28

    IPC分类号: G10L21/028 G10L25/30

    摘要: 本发明公开了一种基于变分自编码器多通道声纹盲源分离方法,其包括以下步骤:采集电力变压器的声纹信号;通过短时傅里叶变换处理混合的声纹信号得到复谱图;将复谱图输入到构造的条件变分自编码器中;训练条件变分自编码器;将训练好的变分自编码器用于声纹盲源分离。该方法使用条件变分自动编码器来建模和估计混合源的功率谱图,通过使用带有源类标签的训练示例的谱图来训练条件变分自动编码器,使用训练的去编码器分布作为通用生成模型,该模型能够生成基于指定类索引的谱图;通过将内容空间变量和类别索引视为该生成模型的未知参数,对基础源的功率谱图以及分离矩阵进行迭代估计,具有优越的声纹盲分离性能。

    一种基于时域声纹分离网络的变压器声纹盲分离方法

    公开(公告)号:CN116564333A

    公开(公告)日:2023-08-08

    申请号:CN202310481828.2

    申请日:2023-04-28

    IPC分类号: G10L21/028 G10L25/30

    摘要: 本发明公开了一种基于时域声纹分离网络的变压器声纹盲分离方法,采集变压器的混叠声纹信号;将混叠声纹信号输入时域声纹分离网络;计算分离网络输出的信号与实际的源信号之间尺度不变的信噪比;通过反向传播算法更新分离网络参数;重复直到尺度不变的信噪比或迭代次数达到预设值,则停止训练;将训练好的时域声纹分离网络用于实际变压器声纹分离。本申请使用编码器‑解码器框架直接在时域中对信号进行建模,并对非负编码器输出执行源进行分离,并将分离问题简化为在编码器输出上计算源掩码,然后由解码器合成;相比于当前最先进的因果和非因果声纹分离算法,该分离方法适用于需要低功耗、实时实现的变压器声纹分离应用。

    针对信息不完全的多模态分类方法、电子设备及存储介质

    公开(公告)号:CN118152909A

    公开(公告)日:2024-06-07

    申请号:CN202410485229.2

    申请日:2024-04-22

    申请人: 四川大学

    发明人: 彭玺 李浩斌 胡鹏

    摘要: 本发明提供了一种针对信息不完全的多模态分类方法、电子设备及存储介质,属于多模态分析技术领域,该方法包括初始化多模态网络和聚类中心参数;获取样本表示,并计算模态的样本和聚类中心之间的注意力;获取样本级的表示和聚类级的表示;计算双层面学习损失,并反向传播双层面学习损失值;判断多模态网络是否收敛;根据判断结果,利用模态的样本和聚类中心之间的注意力,对样本进行插补和模态对齐处理;在不完全信息恢复后,得到多模态的分类结果。本发明解决了当多模态数据存在信息不完全情况时无法进行有效分类的问题。

    一种基于锚点的无监督跨模态哈希检索方法

    公开(公告)号:CN116383422A

    公开(公告)日:2023-07-04

    申请号:CN202310369473.8

    申请日:2023-04-07

    申请人: 四川大学

    摘要: 本发明公开了一种基于锚点的无监督跨模态哈希检索方法,属于跨模态检索技术领域,该方法包括获取图文对训练集;初始化图像模态神经网络的网络参数和文本模态神经网络的网络参数;根据图文对训练集中得到锚点集和批次图文对;根据锚点集和批次图文对,利用直通估计器以最小化跨模态网络损失函数为目标函数分别对图像模态神经网络的网络参数和文本模态神经网络的网络参数进行迭代优化,得到最优图像模态神经网络和最优文本模态神经网络;根据最优图像模态神经网络和最优文本模态神经网络,完成跨模态检索任务。本发明解决了跨模态哈希检索方法时间复杂度和空间复杂度偏高且二值编码不可微的问题。

    一种基于一致性修正和挖掘的鲁棒跨模态检索方法

    公开(公告)号:CN116383271A

    公开(公告)日:2023-07-04

    申请号:CN202310339912.0

    申请日:2023-03-31

    申请人: 四川大学

    摘要: 本发明提出了一种基于一致性修正和挖掘的鲁棒跨模态检索方法,涉及跨模态检索技术领域,包括:S1、获取待检索的数据集,并对其进行数据预处理;S2、使用跨模态信息噪声对比估计损失函数训练得到两个单独的神经网络模型A和B;S3、将预处理后的数据集分别送入模型A和模型B以协同划分;S4、对划分好的数据集进行一致性修正和一致性挖掘;S5、重复步骤S3~S4进行鲁棒的跨模态检索训练,直至网络A和网络B收敛以得到训练完成的网络A和网络B;S6、利用训练完成的网络A和网络B进行跨模态检索以得到检索结果;本发明通过一致性修正和挖掘实现了鲁棒的跨模态检索,可以为本应丢弃的数据对寻找配对数据,提高了跨模态检索的性能。

    一种具有噪声标签的跨模态检索方法

    公开(公告)号:CN115269956A

    公开(公告)日:2022-11-01

    申请号:CN202110486095.2

    申请日:2021-04-30

    申请人: 四川大学

    摘要: 本发明公开了一种具有噪声标签的跨模态检索方法(MRL),该框架针对多模式噪声标签进行学习,通过输入多模态数据,其次从每个模态中随机选择若干个样本,以构建多模态微型批次,接下来通过使用其对应的模态特定映射函数来计算小批量的所有样本的表示,然后归一化群集并分别根据微型批次上的公式计算鲁棒的聚类损失和多峰对比值,然后更新网络参数,最后选择完所有样本后输出优化的网络参数。

    一种动态调整Batch-size的神经网络分布式训练方法

    公开(公告)号:CN111507474B

    公开(公告)日:2022-07-01

    申请号:CN202010561810.X

    申请日:2020-06-18

    申请人: 四川大学

    摘要: 本发明公开了一种动态调整Batch‑size的神经网络分布式训练方法,涉及计算机神经网络分布式训练技术领域,该方法从处理训练数据集的角度出发,对于分布式集群中的每一计算节点,根据其计算力,动态调整Batch‑size和子数据集的划分。从而实现分布式训练集群的负载均衡处理。动态调整Batch‑size的分布式神经网络训练方法不仅可以充分利用各个计算节点的计算能力,还能保证各个计算节点完成本地数据集训练的时间大致相同,从而减少集群的同步开销,提高神经网络分布式训练效率,减少神经网络训练时间。

    音频中音乐及音乐相对响度的联合检测方法

    公开(公告)号:CN111429943B

    公开(公告)日:2022-05-10

    申请号:CN202010198682.7

    申请日:2020-03-20

    申请人: 四川大学

    摘要: 本发明公开了一种音频中音乐及音乐相对响度的联合检测方法,其包括获取待检测音频,并对其进行预处理得到音频特征;将音频特征作为网络输入序列输入双任务音乐检测网络模型,输出每个时间步的三个预测分数;基于预测分数≥设定阈值或<设定阈值时标记为1或0,将每个时间步的预测分数转换成大小为(3,)的0‑1预测向量,采用所有时间步的预测向量形成音乐相对响度检测序列;将预测向量的二三位置采用逻辑或运算合并得到大小为(2,)的0‑1预测向量,采用逻辑或运算得到的所有预测向量形成音乐检测序列;将音乐相对响度检测序列和音乐检测序列转为可读的标注,得到音频包括起始时间、结束时间和类别的标注文件。

    一种新闻评论的情感分析与生成方法

    公开(公告)号:CN114444481A

    公开(公告)日:2022-05-06

    申请号:CN202210102343.3

    申请日:2022-01-27

    申请人: 四川大学

    摘要: 本发明公开了一种新闻评论的情感分析与生成方法,具体包括以下步骤:准备初始数据集,其中包含人工标注小规模数据集A和大规模无监督数据集B;在数据集B的基础上,使用开源情感分类工具,为新闻评论情感分析模型建立大规模伪标签数据集C;基于大规模伪标签数据集C预训练新闻评论情感分析模型;预训练后再在人工标注的小规模数据集A上微调,得到最终的新闻评论情感分析模型;使用最终的新闻评论情感分析模型,重新在数据集B上进行伪标签标注得到大规模伪标签数据集D;基于大规模伪标签数据集D预训练可控式新闻评论生成模型;预训练后在人工标注的小规模数据集A上微调,得到最终的可控式新闻评论生成模型。

    一种跨模态匹配方法及系统
    10.
    发明公开

    公开(公告)号:CN114067233A

    公开(公告)日:2022-02-18

    申请号:CN202111129751.X

    申请日:2021-09-26

    申请人: 四川大学

    发明人: 彭玺 黄振宇

    摘要: 本发明公开了一种跨模态匹配方法及系统,涉及计算机多模态学习领域,包括:神经网络预热子系统、数据划分子系统、标签协同修正子系统和神经网络训练子系统。本发明设计了基于两神经网络的跨模态匹配方法,在两神经网络预热之后,自适应地协同修正多模态样本的标签,并通过标签修正后的多模态样本集交叉训练两神经网络,使跨模态匹配具有鲁棒性,能应对错误对齐的多模态数据。