-
公开(公告)号:CN114678037B
公开(公告)日:2022-10-25
申请号:CN202210385565.0
申请日:2022-04-13
申请人: 北京远鉴信息技术有限公司
IPC分类号: G10L21/0272 , G10L25/30 , G10L25/18 , G10L25/51
摘要: 本申请提供了一种重叠语音的检测方法、装置、电子设备及存储介质,包括:将待检测语音输入特征提取网络层,确定出待检测语音的每一音频段的幅度谱语音特征和相位谱语音特征;将各个音频段的幅度谱语音特征输入第一残差网络层,确定出幅度重叠得分矩阵;以及将各个音频段的相位谱语音特征输入第二残差网络层,确定出相位重叠得分矩阵;将幅度重叠得分矩阵和幅度重叠得分矩阵输入聚合网络层进行聚合处理,确定待检测语音中是否存在重叠语音,并在存在时,输出重叠语音的起始时间和终止时间。通过将待检测语音输入到重叠语音检测模型中,将幅度重叠得分矩阵、相位重叠得分矩阵进行聚合处理,从而可以提高对重叠语音识别的准确率。
-
公开(公告)号:CN113516969B
公开(公告)日:2021-12-14
申请号:CN202111072051.1
申请日:2021-09-14
申请人: 北京远鉴信息技术有限公司
摘要: 本申请提供了一种拼接语音的鉴别方法、装置、电子设备及存储介质,将获取到的待鉴别语音裁剪为多个待鉴别语音段;通过待鉴别语音段融合语音特征和拼接语音鉴别模型中,确定每个待鉴别语音段的语音段类型;对待鉴别语音进行平滑处理,确定是否为拼接语音,当为拼接语音时,基于包括的目标合并拼接语音段的数量,以及每个目标合并拼接语音段在待鉴别语音中的相对位置,确定拼接语音的语音拼接点数量以及语音拼接位置。这样,本申请基于对待鉴别语音段的融合语音特征进行识别,以及通过平滑处理确定待鉴别语音是否为拼接语音,并通过平滑处理后确定出的目标合并拼接语音段确定拼接语音的拼接点数量以及拼接位置,从而提高语音鉴别的准确度和精细度。
-
公开(公告)号:CN112669851B
公开(公告)日:2021-06-08
申请号:CN202110283891.6
申请日:2021-03-17
申请人: 北京远鉴信息技术有限公司
摘要: 本申请提供了一种语音识别方法、装置、电子设备及可读存储介质,包括将获取的待识别语音信号输入至预先训练好的语音识别模型中,得到与待识别语音信号相匹配的识别文本;语音识别模型包括声学模型和语言模型,语言模型由基础语言模型和专用语言模型插值生成,专用语言模型由规整后的指令文本分词得到的分词文本,分词文本对应的扩充文本,以及分词文本对应的扩充发音词典训练得到,扩充发音词典由初始发音词典经过扩充得到,最后确定与识别文本对应的语音指令。本申请可以提升中文和英文字母混合、专有领域的专业词汇、中文和少量单词混合的识别准确率,有效提升了智能系统、智能设备或巡检机器人与电力系统对接时的匹配准确率。
-
公开(公告)号:CN111402898A
公开(公告)日:2020-07-10
申请号:CN202010189291.9
申请日:2020-03-17
申请人: 北京远鉴信息技术有限公司
摘要: 本申请提供一种音频信号处理方法、装置、设备及存储介质,涉及语音处理技术领域。该方法包括:获取待检测音频信号中多个语音片段的语音特征;根据第一个语音片段之后的每个待分类语音片段的语音特征和至少一个已分类语音片段的语音特征,确定每个待分类语音片段的类别;其中,第一个语音片段的类别为预设类别,至少一个已分类语音片段为每个待分类语音片段之前的至少一个语音片段;根据第一个语音片段的类别以及每个待分类语音片段的类别,确定待检测音频信号的总类别个数,并根据总类别个数,确定待检测音频信号的说话人数。相对于现有技术,避免了分离说话人所需的时间太长,影响确定说话人数目的实时性的问题。
-
公开(公告)号:CN114678037A
公开(公告)日:2022-06-28
申请号:CN202210385565.0
申请日:2022-04-13
申请人: 北京远鉴信息技术有限公司
IPC分类号: G10L21/0272 , G10L25/30 , G10L25/18 , G10L25/51
摘要: 本申请提供了一种重叠语音的检测方法、装置、电子设备及存储介质,包括:将待检测语音输入特征提取网络层,确定出待检测语音的每一音频段的幅度谱语音特征和相位谱语音特征;将各个音频段的幅度谱语音特征输入第一残差网络层,确定出幅度重叠得分矩阵;以及将各个音频段的相位谱语音特征输入第二残差网络层,确定出相位重叠得分矩阵;将幅度重叠得分矩阵和幅度重叠得分矩阵输入聚合网络层进行聚合处理,确定待检测语音中是否存在重叠语音,并在存在时,输出重叠语音的起始时间和终止时间。通过将待检测语音输入到重叠语音检测模型中,将幅度重叠得分矩阵、相位重叠得分矩阵进行聚合处理,从而可以提高对重叠语音识别的准确率。
-
公开(公告)号:CN112560449B
公开(公告)日:2021-06-18
申请号:CN202110199595.8
申请日:2021-02-23
申请人: 北京远鉴信息技术有限公司
IPC分类号: G06F40/216 , G06K9/62 , G10L15/183
摘要: 本申请提供了一种文本质量的检测方法、装置、电子设备及存储介质,方法包括:针对每个提问模板子语句,根据该提问模板子语句中字符的目标数量,从待检测文本中选取多个由目标数量个相邻的字符组成的待检测提问字符串;根据各个提问模板子语句与其分别对应的每个待检测提问字符串之间的相似度,确定该提问模板子语句对应的待检测提问子语句;根据各个子提问模板文本中的首尾句分别对应的待检测提问子语句在待检测文本中的位置,确定每个子提问模板文本对应的待检测答复子语句;若各个待检测答复子语句中均包括预设的肯定答复字符串,则确定待检测文本的质量合格。本申请通过增强文本质量检测的针对性,进而提高文本质量检测的准确度。
-
公开(公告)号:CN111462757A
公开(公告)日:2020-07-28
申请号:CN202010042542.0
申请日:2020-01-15
申请人: 北京远鉴信息技术有限公司
摘要: 本申请公开了一种基于语音信号的数据处理方法、装置、终端及存储介质。其中方法包括:检测到语音信号时,确定针对语音信号的多个候选预加重系数各自对应的预加重信号;基于针对语音信号的多个候选预加重系数各自对应的预加重信号,确定多个斜度;将多个斜度分别与预设斜度阈值进行比较,并依据比较结果确定目标斜度以及目标预加重系数;依据目标斜度及目标候选预加重系数,对语音信号进行处理。本申请实施例解决了现有技术中因预加重系数固定导致的因未考虑距离因素导致的语音识别技术中声纹验证精度差、语音识别的准确性低的问题。
-
公开(公告)号:CN111402898B
公开(公告)日:2023-07-25
申请号:CN202010189291.9
申请日:2020-03-17
申请人: 北京远鉴信息技术有限公司
摘要: 本申请提供一种音频信号处理方法、装置、设备及存储介质,涉及语音处理技术领域。该方法包括:获取待检测音频信号中多个语音片段的语音特征;根据第一个语音片段之后的每个待分类语音片段的语音特征和至少一个已分类语音片段的语音特征,确定每个待分类语音片段的类别;其中,第一个语音片段的类别为预设类别,至少一个已分类语音片段为每个待分类语音片段之前的至少一个语音片段;根据第一个语音片段的类别以及每个待分类语音片段的类别,确定待检测音频信号的总类别个数,并根据总类别个数,确定待检测音频信号的说话人数。相对于现有技术,避免了分离说话人所需的时间太长,影响确定说话人数目的实时性的问题。
-
公开(公告)号:CN116189687B
公开(公告)日:2023-07-21
申请号:CN202310465483.1
申请日:2023-04-27
申请人: 北京远鉴信息技术有限公司
IPC分类号: G10L17/02 , G10L17/04 , G10L17/18 , G10L21/0232
摘要: 本申请提供了一种声纹识别方法、装置、电子设备及存储介质,包括:将待识别语音输入至声纹检测模型的深度降噪网络层之中,对待识别语音进行短时傅里叶特征提取,并对短时傅里叶特征依次经过特征编码和特征解码处理后,输出待识别语音的降噪后的短时傅里叶特征;将降噪后的短时傅里叶特征输入至声纹识别网络层之中,输出待识别语音的声纹特征;基于声纹特征与目标用户的预设声纹特征,确定出声纹特征与预设声纹特征是否为同一个体。通过对神经网络模型之中的深度降噪网络层以及多个声纹识别网络层联合训练,并在目标样本语音降噪的过程中加入声纹特征的目标损失,使得语音降噪的同时,保留足够多的声纹信息,提高了声纹识别的准确性。
-
公开(公告)号:CN112802481A
公开(公告)日:2021-05-14
申请号:CN202110364831.7
申请日:2021-04-06
申请人: 北京远鉴信息技术有限公司
摘要: 本申请提供一种声纹验证方法、声纹识别模型训练方法、装置及设备,属于声纹识别技术领域。该方法包括:获取待验证语音;将待验证语音输入预先训练得到的声纹特征表示模型,得到待验证语音对应的声纹特征向量,声纹特征表示模型由全连接层、批量归一化层以及修正线性单元层构成;对待验证语音对应的声纹特征向量以及已注册语音对应的声纹特征向量进行比对处理,得到比对结果;根据比对结果,得到待验证语音的验证结果。本申请可以实现基于微小型控制芯片进行声纹验证的过程。
-
-
-
-
-
-
-
-
-