-
公开(公告)号:CN108665889B
公开(公告)日:2021-09-28
申请号:CN201810361475.1
申请日:2018-04-20
申请人: 百度在线网络技术(北京)有限公司
摘要: 本申请实施例提供一种语音信号端点检测方法、装置、设备及存储介质,通过获取第一音频信号,所述第一音频信号中包括语音信号;基于能量和过零率的第一语音活动检测VAD算法,以及基于深度学习的第二VAD算法中的一种从所述第一音频信号中检测所述语音信号的起点;在检测到所述语音信号的起点后,采用所述第一VAD算法和所述第二VAD算法中的另一种检测所述语音信号的终点。从而在确保语音信号端点检测准确性的同时,降低了计算量。
-
公开(公告)号:CN109697978B
公开(公告)日:2021-04-20
申请号:CN201811549163.X
申请日:2018-12-18
申请人: 百度在线网络技术(北京)有限公司
发明人: 李超
摘要: 本申请实施例公开了用于生成模型的方法和装置。该方法的一具体实施方式包括:获取训练样本集合,其中,训练样本包括音频的音频特征、音频的掩蔽阈值和音频指示的音节的类别,掩蔽阈值用于从音频中提取待提取音频;利用机器学习算法,将训练样本集合中的训练样本包括的音频特征作为输入,将与输入的音频特征对应的掩蔽阈值作为第一期望输出,将与输入的音频特征对应的类别作为第二期望输出,训练得到音频提取模型。该实施方式丰富了模型的训练方式,有助于提高语音端点识别的准确度。
-
公开(公告)号:CN106782501B
公开(公告)日:2020-07-24
申请号:CN201611238959.4
申请日:2016-12-28
申请人: 百度在线网络技术(北京)有限公司
摘要: 本发明提出一种基于人工智能的语音特征提取方法和装置,其中,方法包括:通过对待识别语音进行频谱分析,得到待识别语音的语谱图之后,利用VGG卷积神经网络对语谱图进行特征提取,得到语音特征。由于语谱图能够对待识别语音以图像的方式进行描述,而VGG卷积神经网络又是一种对图像进行处理的有效方式,因此,采用这种方式所提取出的语音特征能够对语音的特性进行准确描述。当根据所提取出的语音特征在进行语音识别时,能够解决现有技术中由于缺乏对语音特征进行有效提取所导致的语音识别准确度不高的技术问题。
-
公开(公告)号:CN109036471B
公开(公告)日:2020-06-30
申请号:CN201810948464.3
申请日:2018-08-20
申请人: 百度在线网络技术(北京)有限公司
摘要: 本发明实施例提供一种语音端点检测方法及设备,该方法通过对待检测语音进行分帧处理,得到多个待检测音帧,获取各所述待检测音帧的声学特征,并将各所述待检测音帧的声学特征依次输入至语音活动性检测VAD模型;所述VAD模型用于输出各所述待检测音帧被分类为声母、韵母和噪音的概率,使得该VAD模型可以准确的对各待检测音帧的声学特征进行分类,进而根据所述VAD模型的输出结果确定语音段的起点和终点,能够提高语音端点检测的准确率。
-
公开(公告)号:CN109637525B
公开(公告)日:2020-06-09
申请号:CN201910075039.2
申请日:2019-01-25
申请人: 百度在线网络技术(北京)有限公司
IPC分类号: G10L15/06
摘要: 本公开的实施例公开了用于生成车载声学模型的方法和装置。该方法的一具体实施方式包括:从预先训练的声学模型组中选择声学模型作为初始声学模型;获取预先生成的训练样本集,其中,训练样本包括样本车载语音数据和对应于样本车载语音数据的样本车载语音识别结果;基于初始声学模型,将训练样本集中的训练样本中的样本车载语音数据作为输入,将与输入的样本车载语音数据相对应的样本车载语音识别结果,作为期望输出,训练得到车载声学模型。该实施方式丰富了模型的生成方式。
-
公开(公告)号:CN106887225B
公开(公告)日:2020-04-07
申请号:CN201710172622.6
申请日:2017-03-21
申请人: 百度在线网络技术(北京)有限公司
摘要: 本申请提出一种基于卷积神经网络的声学特征提取方法、装置和终端设备,该基于卷积神经网络的声学特征提取方法,包括:将待识别的语音排列成预定纬数的语谱图;通过卷积神经网络对所述预定纬数的语谱图进行识别,获得所述待识别的语音中的声学特征。本申请可以实现通过卷积神经网络提取语音中的声学特征,可以更好地表征语音中的声学特性,提高语音识别的准确率。
-
公开(公告)号:CN109036459B
公开(公告)日:2019-12-27
申请号:CN201810959142.9
申请日:2018-08-22
申请人: 百度在线网络技术(北京)有限公司
摘要: 本发明提出一种语音端点检测方法、装置、计算机设备和计算机可读存储介质。语音端点检测方法,可以包括:针对待检测语音帧,设置卷积神经网络的卷积层的层数;根据所述卷积层的层数设置每层卷积层的步长,其中至少一个所述步长大于1;根据所述每层卷积层的步长,确定所述待检测语音帧的跳帧数。在待检测语音帧进行跳帧检测的情况下,可以大幅度减少电子设备例如计算机设备中的中央处理器的计算量,从而大幅度降低了电子设备的功耗。
-
公开(公告)号:CN108831446B
公开(公告)日:2019-10-18
申请号:CN201810506366.4
申请日:2018-05-24
申请人: 百度在线网络技术(北京)有限公司
摘要: 本申请实施例公开了用于生成样本的方法和装置。该方法的一具体实施方式包括:获取候选室内混响集合;对候选室内混响集合中的候选室内混响的混响时间进行统计,得到混响时间分布;将混响时间分布划分为至少一个混响时间分布区间,确定落入至少一个混响时间分布区间中的混响时间分布区间内的候选室内混响;对至少一个混响时间分布区间进行抽样,得到落入所抽样出的混响时间分布区间内的候选室内混响,生成样本室内混响集合。该实施方式实现了快速地生成用于训练声学模型的样本。
-
公开(公告)号:CN108564963B
公开(公告)日:2019-10-18
申请号:CN201810367680.9
申请日:2018-04-23
申请人: 百度在线网络技术(北京)有限公司
IPC分类号: G10L21/0216 , G10L21/0232 , G10L21/0208
摘要: 本申请实施例公开了用于增强语音的方法和装置。该方法的一具体实施方式包括:获取麦克风阵列采集的多个通道的时域语音;基于多个通道的时域语音,生成至少一个通道的频域语音;对至少一个通道的频域语音进行分析,得到至少一个通道的频域语音的归一化增强系数;利用至少一个通道的频域语音的归一化增强系数对至少一个通道的频域语音进行增强处理,得到至少一个通道的增强频域语音;对至少一个通道的增强频域语音进行逆傅立叶变换,得到至少一个通道的增强时域语音。该实施方式实现了富于针对性地语音增强,有助于消除语音中的噪声和室内混响,提高语音识别的准确度。
-
公开(公告)号:CN106128464B
公开(公告)日:2019-05-31
申请号:CN201610409454.3
申请日:2016-06-12
申请人: 百度在线网络技术(北京)有限公司
摘要: 本发明公开了一种通用背景模型UBM分字模型的建立方法、基于该UBM分字模型的声纹特征生成方法以及装置。其中UBM分字模型的建立方法包括:提取训练语音的声学特征,并对训练语音进行语音识别以获取训练语音中的各个字符;从训练语音的声学特征中确定各个字符的声学特征;针对每个字符,分别对每个字符的声学特征进行训练以建立对应的UBM分字模型;针对每个字符,分别根据每个字符的声学特征以及对应的UBM分字模型生成对应的声纹特征提取器。该方法分别为每个字符单独建立一个对应的UBM分字模型以及声纹特征提取器,可以获得更加精确的Baum‑Welch统计量,进而可以得到精确的声纹模型。
-
-
-
-
-
-
-
-
-