-
公开(公告)号:CN118016064A
公开(公告)日:2024-05-10
申请号:CN202410130813.6
申请日:2024-01-30
申请人: 浙江大华技术股份有限公司
摘要: 本申请公开了一种语音唤醒方法、装置、电子设备及存储介质,本申请在训练语音唤醒模型时,根据待部署的电子设备的性能参数确定语音唤醒模型的模型结构,从而训练所述模型结构的语音唤醒模型。根据电子设备的部署环境,确定环境噪声;根据环境噪声和预先设置的唤醒语音,确定训练集;基于训练集,训练模型结构的语音唤醒模型。在训练语音唤醒模型时,结合电子设备的部署环境,将环境噪声添加至训练集完成语音唤醒模型的训练,提高语音唤醒模型识别文本序列的准确性。在使用时,将采集的目标语音信息输入语音唤醒模型,基于语音唤醒模型得到所述目标语音信息对应的目标文本序列,根据目标文本序列唤醒对应的应用。提高了语音唤醒的准确性。
-
公开(公告)号:CN118016053A
公开(公告)日:2024-05-10
申请号:CN202410033568.7
申请日:2024-01-09
申请人: 浙江大华技术股份有限公司
摘要: 本申请公开了一种语音识别模型训练方法、装置、设备及存储介质,涉及语音识别技术领域。该方法包括:对原始训练语音进行预处理,得到处理后的训练语音,以及将原始训练文本进行编码,得到编码后的目标文本序列;将训练语音输入到语音识别模型中的声学模型编码器进行特征提取,得到语音嵌入特征,以及将原始训练文本输入到语音识别模型中的语言模型编码器进行特征提取,得到文本嵌入特征;将训练语音、语音嵌入特征、文本嵌入特征分别输入到语音识别模型中各自的解码器,解码得到各自的文本序列,并根据各文本序列和目标文本序列,确定各解码器各自的损失函数;当各损失函数中至少一个损失函数满足损失函数要求时,得到目标语音识别模型。
-
公开(公告)号:CN117935836A
公开(公告)日:2024-04-26
申请号:CN202311776034.5
申请日:2023-12-21
申请人: 浙江大华技术股份有限公司
IPC分类号: G10L21/0224 , G10L21/0232 , G10L21/0208 , G10L21/0216
摘要: 本公开涉及一种回声消除方法、装置及设备,该方法包括:获取当前帧远端信号和多个近端信号;基于前一帧各通道的各滤波器子块的第一滤波器系数、远端信号和多个近端信号,得到各通道的第一残差信号;基于各通道的第一残差信号确定近端语音协方差矩阵;基于任一通道的各滤波器子块的状态协方差矩阵、远端信号和近端语音协方差矩阵,确定任一通道的各滤波器子块的目标步长;基于任一通道的各滤波器子块的目标步长确定当前帧各通道的各滤波器子块的第二滤波器系数;基于当前帧各通道的各滤波器子块的第二滤波器系数、后一帧远端信号和各通道的近端信号,确定后一帧各通道的第二残差信号。本公开能保证较好回声消除效果,降低回声消除的计算复杂度。
-
公开(公告)号:CN117935833A
公开(公告)日:2024-04-26
申请号:CN202311779394.0
申请日:2023-12-21
申请人: 浙江大华技术股份有限公司
IPC分类号: G10L21/0208 , G10L21/0264 , G10L21/0216
摘要: 本申请公开了一种语音增强方法、设备及存储介质,该语音增强方法包括:对待处理音频信号进行加性噪声抑制处理,确定待处理音频信号进行加性噪声抑制处理采用的语音估计增益系数;提取待处理音频信号对应的基音频率,根据基音频率确定平滑系数;按照平滑系数对语音估计增益系数进行平滑,得到平滑增益系数;根据平滑增益系数对待处理音频信号进行语音增强,得到目标纯净语音信号。可以在抑制加性噪声的前提下,有效抑制因为噪声抑制不准确造成的残余噪声,且根据基音频率确定的平滑系数可以避免语音失真。
-
公开(公告)号:CN117935831A
公开(公告)日:2024-04-26
申请号:CN202311777130.1
申请日:2023-12-21
申请人: 浙江大华技术股份有限公司
IPC分类号: G10L21/0208 , G10L21/0264 , G10L21/0216 , G10L25/30
摘要: 本申请公开了一种语音增强网络的训练方法、语音增强方法、电子设备及计算机可读存储介质。该方法包括获取带噪语音信号和无噪语音信号,带噪语音信号基于带噪语音得到,无噪语音信号基于无噪语音得到,带噪语音基于无噪语音得到;将带噪语音信号输入至预构建语音增强网络中获取第一语音信号,对无噪语音信号进行处理得到语音特征信息;基于语音特征信息和第一语音信号获取损失函数;利用损失函数对语音增强网络进行参数调整,以完成对语音增强网络的训练。通过上述方式,本申请能够提高语音增强网络的性能,改善语音增强的效果。
-
公开(公告)号:CN117935814A
公开(公告)日:2024-04-26
申请号:CN202311779417.8
申请日:2023-12-21
申请人: 浙江大华技术股份有限公司
摘要: 本申请公开了一种模型训练方法、语音唤醒方法、设备以及存储介质,该模型训练方法包括:将获取到的训练集中声音信号的声学特征分别输入多个待训练初始模型中进行模型训练,得到训练后的模型;根据获取到的模型挑选规则,从训练后的模型中进行模型挑选,得到各模型挑选规则对应的目标模型;根据获取到的模型融合规则,对各目标模型进行模型融合处理,得到语音唤醒模型。上述方案,能够提升语音唤醒的准确率。
-
公开(公告)号:CN112055203B
公开(公告)日:2024-04-12
申请号:CN202010853191.1
申请日:2020-08-22
申请人: 浙江大华技术股份有限公司
IPC分类号: H04N19/103 , H04N19/176 , H04N19/513
摘要: 本申请公开了一种帧间预测方法、视频编码方法及其相关装置,包括:确定当前块在各个原始预测模式下的权重阵列;将当前块划分多个第一子块,并基于至少两个第一子块的时域运动信息构建当前块的单向运动信息候选列表;基于权重阵列计算编码代价,自单向运动信息候选列表中选取代价最小的多组运动信息作为多组第一候选运动信息;基于多组第一候选运动信息,在原始预测模式中选取最终预测模式。通过本申请所提供的技术方案,可以选取预测准确度更好的预测模式,进而较好地提高了帧间预测的准确性。
-
公开(公告)号:CN117789755A
公开(公告)日:2024-03-29
申请号:CN202311781734.3
申请日:2023-12-21
申请人: 浙江大华技术股份有限公司
摘要: 一种音频数据的检测方法、装置及电子设备,该方法包括:获得待检测音频数据,将待检测音频数据输入目标音频检测模型进行训练,得到至少一个音频事件与每个音频事件对应的音频事件概率值的对应关系,按照预设规则从所有音频事件概率值中筛选出目标音频事件概率值,并将目标音频事件概率值对应的音频事件作为待检测音频数据对应的目标音频事件。通过上述的方法,确定出训练之后的目标音频检测模型,确保了确定出的目标音频检测模型的准确性,并通过目标音频检测模型检测待检测音频数据中的目标音频事件,确保了确定出的目标音频事件的准确性。
-
公开(公告)号:CN115019774A
公开(公告)日:2022-09-06
申请号:CN202210761146.2
申请日:2022-06-29
申请人: 浙江大华技术股份有限公司
摘要: 本公开提供语音唤醒方法、装置、电子设备及计算机存储介质。用于提高语音唤醒的识别率,降低误唤醒的情况。包括:以第一时长为周期,周期性获取所述第一时长内的语音为待处理语音;基于连续获取的多个待处理语音对应的目标音素,得到多条排列路径;其中,所述目标音素是基于对应的待处理语音的状态似然值数组确定的,且所述状态似然值数组中包含所述待处理语音包含的各基础音素分别在各指定状态下对应的状态似然值,所述目标音素为所述各基础音素中的音素;并基于所述多条排列路径中的目标音素的状态似然值,从所述多个排列路径中确定出候选路径;对所述候选路径进行语音识别,并根据所述候选路径的语音识别的结果确定是否对目标设备进行唤醒。
-
公开(公告)号:CN113382248B
公开(公告)日:2022-09-06
申请号:CN202110424724.9
申请日:2021-04-20
申请人: 浙江大华技术股份有限公司
IPC分类号: H04N19/176 , H04N19/159 , H04N19/137 , H04N19/42
摘要: 本发明公开了一种帧间预测值修正方法、编码器及计算机可读存储介质,该帧间预测值修正方法包括:获取当前编码块的帧间预测值;构建与当前编码块对应的虚拟编码块,并获取虚拟编码块的像素值;利用虚拟编码块的像素值对帧间预测值进行修正。通过上述方式,本发明能够提高帧间预测的准确性。
-
-
-
-
-
-
-
-
-