基于信号协方差矩阵重构的实时声源分离方法和装置

    公开(公告)号:CN117037836A

    公开(公告)日:2023-11-10

    申请号:CN202311278673.9

    申请日:2023-10-07

    申请人: 之江实验室

    摘要: 基于信号协方差矩阵重构的实时声源分离方法与装置,其方法包括:检测到多个声源信号时,采用指数平滑方法计算混合信号的协方差矩阵;对混合信号的协方差矩阵作特征值分解,利用特征值计算不同频率分量的噪声功率;利用主要特征值向量构成的子空间和理论导向矢量,计算声源的导向矢量;利用混合信号协方差矩阵的特征值向量和特征值,计算混合信号协方差矩阵的逆矩阵;利用混合信号协方差矩阵的逆矩阵和声源的导向矢量,计算每个声源的功率,并按照协方差矩阵的定义重构每个声源的信号协方差矩阵;利用每个声源的信号协方差矩阵和信号的理论导向矢量,计算分离系数矩阵;基于混合声信号向量与分离系数矩阵得到分离后的声源信号。

    音频数据的处理方法、装置、介质和设备

    公开(公告)号:CN116994598A

    公开(公告)日:2023-11-03

    申请号:CN202310954455.6

    申请日:2023-07-31

    发明人: 程光伟

    摘要: 公开了一种音频数据的处理方法、装置、存储介质和电子设备,其中,方法包括:获取在目标场景中的多个音频采集设备采集的音频数据;基于第一预设算法,对音频数据进行声源分离,得到至少一路第一音频信号,并确定各第一音频信号与多个音区之间的信号音区对应关系;基于第二预设算法,对音频数据进行声源分离,得到至少一路第二音频信号;确定各第一音频信号与各第二音频信号之间的信号对应关系;基于信号对应关系,分别对存在对应关系的第一音频信号与第二音频信号进行混合处理,得到各第一音频信号分别对应的目标音频信号;基于信号音区对应关系,分别确定各目标音频信号对应的目标音区。本公开实现了场景中分布式音频采集设备的精准拾音。

    语音增强方法、语音增强网络的训练方法及电子设备

    公开(公告)号:CN116959471A

    公开(公告)日:2023-10-27

    申请号:CN202311044108.6

    申请日:2023-08-17

    发明人: 邹欢彬

    摘要: 本申请实施例公开了一种语音增强方法、语音增强网络的训练方法及电子设备,通过对各个增强语音帧的语音有效性进行分类,根据各个增强语音帧的分类结果生成样本增强语音的有效性分布特征,通过有效性分布特征确定语音增强网络的有效性损失,衡量各个增强语音帧的语音有效性相较于降噪前的变化程度,在此基础上,再根据转换损失和有效性损失确定目标损失,能够着重提升语音增强网络对非语音段的噪声抑制能力,在基于训练后的语音增强网络对待处理语音进行降噪时,对于包含非语音段的待处理语音,训练后的语音增强网络能够有效减少出现噪声残留的现象,提升语音增强的质量,可广泛应用于云技术、人工智能、智慧交通、辅助驾驶等各种场景。

    一种语音增强方法、装置及电子设备

    公开(公告)号:CN116913306A

    公开(公告)日:2023-10-20

    申请号:CN202311117201.5

    申请日:2023-08-31

    发明人: 陈新 李洋全 李元

    IPC分类号: G10L21/0232 G10L25/21

    摘要: 本申请涉及语音信号技术领域,提供了一种语音增强方法、装置及电子设备。该方法包括:将输入信号转换到频域,得到第一频谱信号,得到平滑周期图;利用第一因果窗,确定对应能量谱值的第一功率谱水平值;利用各第一功率谱水平值计算第一频谱信号中稳态分量的功率谱密度估计值;利用第二因果窗和非因果窗,确定作为能量谱值的第二功率谱水平值;利用各第二功率谱水平值计算第一频谱信号中非稳态分量的功率谱密度估计值;根据稳态分量和非稳态分量的功率谱密度估计值,对第一频谱信号进行处理,得到语音输出信号。本申请通过利用因果窗、非因果窗对能量谱值确定各分量的功率谱密度估计值,可有效抑制非稳态噪声,提高语音的清晰度。

    音频编码方法和装置
    65.
    发明授权

    公开(公告)号:CN110808056B

    公开(公告)日:2023-10-17

    申请号:CN201911085012.8

    申请日:2015-03-13

    摘要: 用于对音频信号进行编码的编码器和其中的方法,其中音频信号的频谱被分成第一区域和第二区域,其中至少第二区域包括多个频带。此外,通过第一编码方法对第一区域中的谱峰进行编码。本文提供的方法包括:针对音频信号的片段,确定第二区域中的频带的能量和第一区域的能量估计之间的关系;确定第二区域的中的频带的能量和第二区域中的相邻频带的能量之间的关系;确定可用的比特数量是否足以用于对第一区域的至少一个非峰值片段和第二区域中的频带进行编码。此外,当上述关系满足各自的预定准则且比特数量足够时,使用第二编码方法对第二区域中的频带和第一区域的至少一个片段进行编码。否则,代之为对第二区域中的频带进行BWE或噪声填充。

    一种发动机故障检测系统、方法、装置及存储介质

    公开(公告)号:CN116858544A

    公开(公告)日:2023-10-10

    申请号:CN202310870097.0

    申请日:2023-07-17

    摘要: 本申请提供一种发动机故障检测系统、方法、装置及存储介质,通过获取发动机在质检时的至少三个的噪声信号,进行预处理后,得到待测故障对应的至少三个目标噪声信号,进行时频转化,得到待测故障对应的频率能量谱特征;依次对频率能量谱特征进行归一化处理、特征增强处理和降维处理;将降维处理后的频率能量谱特征输入故障识别模型中,得到故障识别模型输出的发动机是否发生待测故障的识别结果,故障识别模型是基于深度残差网络ResNet18训练得到的。相较于现有技术,本申请通过对发动机产生的噪声信号进行详尽地分析和处理,以判断发动机内部是否存在特定类型的故障,能够避免人为误判和主观因素的影响,从而提升发动机质检的准确性和效率。

    一种广播系统静音检测方法、音频输出设备及存储介质

    公开(公告)号:CN116778954A

    公开(公告)日:2023-09-19

    申请号:CN202310736510.4

    申请日:2023-06-20

    摘要: 本发明实施例涉及应急广播的技术领域,具体涉及一种广播系统静音检测方法、音频输出设备及存储介质。所述方法包括:获取广播信息;根据广播信息的输入类型,对广播信息进行解码或转换,得到PCM音频数据;在时域对PCM音频数据进行平均功率的计算及比对,得到PCM音频数据的时域检测结果;通过傅立叶变换将PCM音频数据从时域转换至频域,得到频域音频数据;对频域音频数据进行功率平均值的标准差数据的计算及比对,得到PCM音频数据的频域检测结果;根据PCM音频数据的时域检测结果和频域检测结果,判断该广播信息是否为静音模式下的噪音。该方法解决了单一种检测方式精度和灵敏度的不足的问题,极大提高检测概率,缩短检测时间,提高用户的使用体验。

    一种语音增强处理方法、装置、电子设备及介质

    公开(公告)号:CN116758933A

    公开(公告)日:2023-09-15

    申请号:CN202310773974.2

    申请日:2023-06-27

    发明人: 毛婷婷

    摘要: 本发明公开了一种语音增强处理方法、装置、电子设备及介质,适用于信号处理技术领域。将语音信号分别进行时频分析和频域分析得到对应的时域信号和频域信号的两种特征信号,根据两种特征信号确定的语音存在概率,相对于现有的单一特征,在高噪环境下仅用时域特征,加大语音和噪声的区分度,在低噪环境下仅用频域特征,提高语音存在概率的估计准确度。将语音存在概率进行平滑处理,可以平衡较少语音失真情况下噪声跟踪较慢的问题。根据平滑后的语音存在概率与门限值的关系确定不同语音增强处理方式,实现对不同情况进行区分,采用不同的噪声估计方式得到噪声估计,同时提高噪声估计的准确值和降噪过程中的语音还原度。

    一种机器人语音播放方法、系统、计算设备及存储介质

    公开(公告)号:CN116758893A

    公开(公告)日:2023-09-15

    申请号:CN202311069157.5

    申请日:2023-08-24

    发明人: 谢志砼 王浩

    摘要: 本发明提供一种机器人语音播放方法、系统、计算设备及存储介质,涉及语音分析技术领域,所述方法包括:获取人声样本,提取人声样本的特性,并根据特性对人声样本进行分类,以得到至少一个分类单元;通过加密算法分别对至少一个分类单元进行加密,以得到第一加密数据;根据所述第一加密数据构建人声模拟模型;接收语音播放指令,对接收到的语音播放指令进行区块链加密,以得到第二加密数据,并将所述第二加密数据转换为文本信息;通过所述人声模拟模型,将所述文本信息转化为语音信号;通过扬声器将所述语音信号播放。本发明保障了数据的安全性和隐私性,提高了语音播放的自然度,也使得机器人能够更灵活地响应各种语音播放指令。

    声音检测方法及装置
    70.
    发明授权

    公开(公告)号:CN113744730B

    公开(公告)日:2023-09-08

    申请号:CN202111067585.5

    申请日:2021-09-13

    发明人: 佘积洪 朱宸都

    摘要: 本申请提供一种声音检测方法及装置,声音检测方法包括:获取待检测的音频数据;确定音频数据中每一帧数据的类型,类型包括语音和静音;将音频数据中属于语音类型的帧对应的语音数据输入深度神经网络,获得属于目标的声音数据。由于静音数据中很少存在声音,因此,通过预先剔除音频数据中的静音数据,仅将音频数据中的语音数据输入到深度神经网络中进行目标声音检测,避免深度神经网络对于静音数据的无效检测,减少了深度神经网络对于音频数据的计算量,在确保目标声音检测的准确率的同时,还提高了目标声音检测的效率。