-
公开(公告)号:CN119559951A
公开(公告)日:2025-03-04
申请号:CN202411756892.8
申请日:2024-12-02
Applicant: 广州航海学院 , 朝阳聚声泰(信丰)科技有限公司 , 南昌航空大学
Abstract: 本发明涉及语音处理技术领域,具体涉及一种基于最大化编码空间的无监督说话人验证方法,涉及说话人验证领域、机器学习领域和域自适应领域,包括将含有源域训练集的说话人语音的音频信号输入CAM++网络监督式预训练得到预训练模型;将预训练模型初始化教师‑学生框架中的教师模型得到初始化的DINO框架;将目标域的说话人语音的音频信号切分成两个不重复的语音片段输入到初始化的DINO框架,教师模型输出得到2个固定维度的说话人嵌入,学生模型得到2个固定维度的说话人嵌入;固定教师模型的参数,损失回传,梯度更新,优化学生模型的参数;训练好的模型提取测试语音的说话人嵌入然后使用余弦相似性分析即可得到说话人分类结果。
-
公开(公告)号:CN118366461A
公开(公告)日:2024-07-19
申请号:CN202410501998.7
申请日:2024-04-25
Applicant: 广州航海学院 , 朝阳聚声泰(信丰)科技有限公司 , 南昌航空大学
IPC: G10L17/18 , G06F18/22 , G06F18/2431 , G06F18/214 , G06N3/0464 , G10L17/02
Abstract: 本发明涉及语音处理技术领域和图像超分辨率技术领域,具体涉及一种基于纹理和通道特征增强的上下文掩蔽感知的说话人验证方法,涉及说话人验证领域、图像超分辨率分析领域和计算机视觉领域,包括将含有说话人语音的音频信号输入至采集边缘特征的卷积块得到带有加强的边缘特征的说话人信息;将加强边缘特征的说话人信息输入至带残差的二维卷积块得到具有高分辨率时频特征的说话人信息;将含有高分辨率时频特征的说话人信息输入至全局响应归一化层得到通道特征加强的说话人信息;将通道特征加强的说话人信息输入至CAM++骨干网络得到完整的说话人向量;将完整的说话人向量输入至线性分类层然后用余弦相似性分析即可得到说话人分类结果。
-
公开(公告)号:CN116913305A
公开(公告)日:2023-10-20
申请号:CN202310928010.0
申请日:2023-07-27
Applicant: 南昌航空大学 , 朝阳聚声泰(信丰)科技有限公司
IPC: G10L21/0224 , G10L21/0232 , G10L21/0316 , G10L25/30
Abstract: 本发明涉及语音处理技术领域,尤其涉及一种基于切比雪夫展开式的语音增强方法,所述方法包括:对需增强的语音信号进行短时傅里叶变换;切比雪夫级数的零阶项网络采用U2‑Net网络结构对信号进行幅度先验估计,得到粗略估计的复频谱;切比雪夫级数的高阶项网络用来估计复频谱残差项,将其定义为目标频谱与粗谱之间的相位差以细化目标频谱,再将残差分量表述为各高阶切比雪夫项的组合,并用一个轻量级的可训练模块来取代相邻项之间的算法;根据切比雪夫级数进行叠加零阶项和高阶项,恢复目标频谱。本发明受到切比雪夫级数的启发,构建了一种模拟切比雪夫展开式的零阶项和高阶项的一个可解释的两阶段解耦式网络,得到最后增强的目标语音信号。
-
公开(公告)号:CN117174097A
公开(公告)日:2023-12-05
申请号:CN202311135746.9
申请日:2023-09-05
Applicant: 南昌航空大学 , 朝阳聚声泰(信丰)科技有限公司
Abstract: 本发明公开了一种基于新型跳跃连接机制的轻量化UNet语音增强方法。本方法首先对语音信号进行基于STDCT的语音特征提取,构建基于STDCT的实值UNet网络,利用STDCT隐含相位信息的特点达到降低计算复杂度的目的。其次建立基于通道交叉Transformer的新型跳跃连接机制。通过通道交叉融合模块CCFM融合来自不同编码器级别的多尺度语音特征,消除特征的语义差距;通过通道交叉注意力模块CCAM指导融合后的多尺度语音信息有效连接到解码器上,形成跳跃连接的新输出,实现语音增强效果的有效提升。最后使用逆短时离散余弦变换ISTDCT波形重建将信号转换回时域信号,重建增强后的语音信号。本发明方法只需要较少的模型参数和计算量,适合低计算资源情景下的语音增强任务。
-
公开(公告)号:CN119296550A
公开(公告)日:2025-01-10
申请号:CN202411417307.1
申请日:2024-10-11
Applicant: 南昌航空大学
IPC: G10L17/26 , G10L17/02 , G10L17/18 , G10L21/0208 , G10L21/0232
Abstract: 本发明公开了一种基于度量学习的环境声音分类方法及系统,该方法包括如下步骤:收集环境声音音频,并转化为梅尔频谱图;对梅尔频谱图进行数据增强;构建SPA模块和FPL模块,使用SPA模块或FPL模块对数据增强后的环境声音音频进行处理,采用预训练的卷积神经网络模型对处理后的环境声音音频进行特征提取,得到声音特征;将提取的声音特征输入到表征空间;在表征空间中结合对比、度量学习和交叉熵损失来优化声音特征,对优化后的声音特征进行分类;本发明通过利用度量学习考虑类内变异的方法,使得在进行分类任务的过程中,同类样本的特征更加接近,不同类样本的特征更加分离,有效提高了分类准确率。
-
公开(公告)号:CN218847276U
公开(公告)日:2023-04-11
申请号:CN202222993769.0
申请日:2022-11-10
Applicant: 南昌航空大学
Abstract: 本实用新型公开了一种光纤温湿度传感器及其检测系统,光纤温湿度传感器主要由单模光纤、光纤布拉格光栅、陶瓷插芯、多孔氧化铝介质薄膜组成,单模光纤上刻制一个光纤布拉格光栅,单模光纤的尾纤从A端插入陶瓷插芯中,随陶瓷插芯的B端一起研磨平整后连接多孔氧化铝介质薄膜。本实用新型的有益效果为:光纤布拉格光栅用于测温;多孔氧化铝介质薄膜的两侧表面是两个反射面,形成一个F‑P腔结构,此结构用于测湿,光纤温湿度传感器结构简单,测量精度高,可以应用在低湿度环境的温湿度监测中。
-
-
-
-
-