一种基于相参积累和脉冲串检测的水下信标信号检测方法

    公开(公告)号:CN118859098A

    公开(公告)日:2024-10-29

    申请号:CN202410900107.5

    申请日:2024-07-05

    摘要: 一种基于相参积累和脉冲串检测的水下信标信号检测方法,它属于水下探测技术领域。本发明解决了现有方法对水下信标信号检测概率低的问题。本发明对接收信号对应的短时傅里叶变换谱图能量进行分组,再对分组结果进行相参积累,可以有效地增大信噪比,有利于微弱水声信标信号的检测。利用水声信标信号的频率特性和周期特性进行脉冲串检测,可以有效对抗非平稳尖刺脉冲的干扰,降低检测的虚警概率,提高检测的准确率。本发明能够有效检测水声信标信号,具有很强的实际应用价值。本发明方法可以应用于水下微弱信标信号检测。

    基于傅里叶分解和人工神经网络的最佳切削参数区域确定方法

    公开(公告)号:CN118824289A

    公开(公告)日:2024-10-22

    申请号:CN202410906250.5

    申请日:2024-07-08

    摘要: 本发明公开了一种基于傅里叶分解和人工神经网络的最佳切削参数区域确定方法,包括:对原始加工声音信号进行小波包分解和重构;获得FIBF分量,找到振幅最高的FIBF分量,计算颤振指数CI;通过切削参数获得材料去除率MMR;以加工参数作为输入,以每组加工参数对应的颤振指数CI作为输出,对切削区域确定模型进行训练;将待加工工件的切削深度D、切削速度S、进给速度F与预测得到的颤振指数CI和材料去除率MRR分别做等高线图,选取CI值小且MRR值大的区域作为最佳切削参数区域。本发明能够快速得到既保证不会发生颤振又兼顾加工效率的最佳切削参数区域;整个采集过程无需接触工件,对切削结果无影响。

    一种基于双线索的目标声音提取处理方法、系统及平台

    公开(公告)号:CN118824288A

    公开(公告)日:2024-10-22

    申请号:CN202410804569.7

    申请日:2024-06-20

    摘要: 本发明公开了一种基于双线索的目标声音提取处理方法、系统及平台,通过方法构建与第一线索数据相对应的声音事件检测网络模型,并训练所述声音事件检测网络模型;构建与第二线索数据相对应的目标声音提取系统,并训练与所述目标声音提取系统相对应的目标声音提取网络;根据所述声音事件检测网络模型,并结合所述目标声音提取系统,实时提取与双线索数据相对应的目标声音数据;以及与所述方法相应的系统、平台,并结合目标声音的时间戳信息,以及声音类别标签,来对声音进行分离处理,以提升声音提取的效果,并通过时间戳信息可以帮助指导目标声音的定位和提取。

    语音音色转换中的节奏控制方法、电子设备和存储介质

    公开(公告)号:CN118824264A

    公开(公告)日:2024-10-22

    申请号:CN202411148314.6

    申请日:2024-08-20

    发明人: 钱彦旻 陈正阳

    摘要: 本发明公开了一种语音音色转换中的节奏控制方法,包括,获取源语音的源语音语义向量和源语音梅尔谱;对源语音进行扰动后,获取源语音的源语音节奏向量;获取参考语音的参考语音语义向量、参考语音节奏向量和参考语音梅尔谱;掩盖部分语音的梅尔谱;建立输出语音梅尔谱,将源语音语义向量和源语音节奏向量补充到输出语音梅尔谱中,通过参考语音的梅尔谱获取音色信息,输出输出语音梅尔谱,完成音色转换。本发明使用掩码并重建的方式进行训练,可以避免对配对数据和干净数据的需求。同时可以使用很简单的方式实现音色转换。

    一种基于人工智能的音视频内容识别和审核方法

    公开(公告)号:CN118820956A

    公开(公告)日:2024-10-22

    申请号:CN202411121866.8

    申请日:2024-08-15

    摘要: 本发明属于音视频审核领域,具体是指一种基于人工智能的音视频内容识别和审核方法,所述方法包括收集并构建融合训练数据集、随机采样、切割音视频、构建片段分类器、评估分类概率、时间对齐、分类概率平滑、融合向量提取和融合元学习。本方案寻求计算机辅助解决方案,提出一种音视频内容识别审核方法,以减轻审核人员的工作强度;利用视频流媒体的多模态数据特性,从原始音视频中提取视频信号、字幕信号和音频信号来增强检测准确度,有效地挑出包含敏感内容的感兴趣的片段;本方案以频谱图图像的形式从语音中提取特征,以获得高性能和低成本的敏感内容检测。

    利用Mel频率倒谱系数的广义回归神经网络声信号识别方法

    公开(公告)号:CN115331678B

    公开(公告)日:2024-10-22

    申请号:CN202210304605.4

    申请日:2022-03-21

    摘要: 本发明涉及一种利用Mel频率倒谱系数的广义回归神经网络声信号识别方法,将MFCC和GRNN相结合,充分发挥MFCC富含声音特征和GRNN非线性拟合的优势,有效识别海豹种类。首先提取声信号的MFCC特征,做FFT和Mel滤波,求出L阶的MFCC,计算倒谱差分参数,进行GRNN模型的测试,其中利用k折交叉验证方法来确定最优扩展因子,该方法将训练数据划分为k折,并将其依次作为验证集用于测试,将得到的最优扩展因子用于GRNN的训练,并对测试声音数据进行识别。信噪比降低对GRNN方法影响最小,在信噪比为5dB以上时,GRNN方法可实现准确识别,在信噪比为0dB时,GRNN方法仍可实现大致识别。

    音频转文本方法、装置、电子设备及可读存储介质

    公开(公告)号:CN118800236A

    公开(公告)日:2024-10-18

    申请号:CN202311605192.4

    申请日:2023-11-28

    IPC分类号: G10L15/26 G10L25/18 G10L19/00

    摘要: 本发明提供一种音频转文本方法、装置、电子设备及可读存储介质,属于人工智能技术领域,包括:获取待识别音频相关的梅尔频谱输入至音频转文本模型中的音频编码器,获取多模态音频特征;将多模态音频特征输入至扩散模型,得到其输出的文本编码特征;再将文本编码特征输入至音频解码器,获取该待识别音频对应的识别文本。本发明设计并训练了一种新的音频转文本模型,利用音频编码器提取出待识别的音频相关的多模态音频特征,然后利用扩散模型的多模态空间中关联的多模态音频特征与多模态文本编码特征之间的强相关性,生成文本编码特征,在利用音频解码器进行解码得到识别文本,泛化性强、鲁棒性更强。

    基于机器学习的婴幼儿哭声增强方法、装置及设备

    公开(公告)号:CN118609605B

    公开(公告)日:2024-10-18

    申请号:CN202411080693.X

    申请日:2024-08-08

    摘要: 本发明涉及音频处理技术领域,解决了现有技术中收集到的婴幼儿哭声受限于杂音的干扰,难以准确区分和提取出有效婴幼儿哭声的问题,提供了一种基于机器学习的婴幼儿哭声增强方法、装置及设备。该方法包括:获取第一音频数据,其中,所述第一音频数据包括至少一段含有婴幼儿哭声的音频数据;对所述第一音频数据进行预处理,得到第一音频数据对应的频谱图;将所述频谱图输入自编码器模型,输出所述第一音频数据中与婴幼儿哭声对应的音频特征信息;根据所述音频特征信息,对含有婴幼儿哭声的音频数据进行处理,得到增强后的第二音频数据。本发明有效地从嘈杂环境中提取并增强了婴幼儿哭声,显著提高了哭声信号的纯净度和识别率。

    一种基于大数据的农业管理系统及其方法

    公开(公告)号:CN118609338B

    公开(公告)日:2024-10-18

    申请号:CN202411080512.3

    申请日:2024-08-08

    摘要: 本发明提供一种基于大数据的农业管理系统及其方法,涉及农业农田管理技术领域,本发明分别采集每个子区域的环境时序数据和生物多样性数据,采用傅里叶变换对声音时序数据进行处理,提取频谱特征通过分析这些频率特征,生成生物多样性指数判断出生物多样性的状况,通过对土壤微生物种类及数量的分析量化微生物活性,生成微生物活性指数,通过微生物活性指数反映土壤生态系统的健康状况,通过对环境时序数据的离散化和变化率分析生成环境参考指数,综合各个子区域的变化相关系数,结合各个子区域的生物多样性指数和微生物活性指数,生成了生态系统健康指数并与预设的生态健康阈值进行比较,可以及时发出预警。