语音活动侦测方法及装置、存储介质和电子设备

    公开(公告)号:CN113270118B

    公开(公告)日:2024-02-13

    申请号:CN202110529801.7

    申请日:2021-05-14

    IPC分类号: G10L25/78

    摘要: 本发明的实施方式提供了一种语音活动侦测方法及装置、存储介质和电子设备。该语音活动侦测方法包括采集音频信号,确定音频信号的短时能量直方图;根据短时能量直方图,确定音频信号的底噪能量值;根据底噪能量值,确定出能量门限值;根据能量门限值和当前帧音频信号的能量值,确定第一语音活动侦测值,其中,第一语音活动侦测值用于表示当前帧音频的音频状态。本发明实施例的技术方案可以提高实时语音通信中的语音信号识别的准确性。

    音频同步误差测试方法、装置、服务器及可读存储介质

    公开(公告)号:CN112447185B

    公开(公告)日:2024-02-09

    申请号:CN201910816550.3

    申请日:2019-08-30

    发明人: 唐诗

    摘要: 本申请实施例提供一种音频同步误差测试方法、装置、服务器及可读存储介质,通过将待测试的音频数据中每段音频段数据视为平稳随机信号,从而计算音频数据中各段音频段数据对应的自回归模型系数,以根据各段音频段数据对应的自回归模型系数,确定第一音频同步误差。如此,以客观定量地分析音频同步误差,且无需人工干预,避免了人工主观判断法带来的主观误差,从而能够有效提高音频同步误差的准确性和测试效率,降低测试成本。

    一种自适应端点检测的语音识别方法与系统、智能设备

    公开(公告)号:CN111816217B

    公开(公告)日:2024-02-09

    申请号:CN202010633139.5

    申请日:2020-07-02

    摘要: 本发明涉及一种自适应端点检测的语音识别方法与系统、智能设备,其中,语音识别方法包括,构建不同强度等级的环境声音;在每个强度等级的环境声音下,播放测试声源,采集得到测试音频数据,进行端点检测;根据每个测试音频数据的端点检测阈值‑端点检测结果的曲线与端点检测结果的参考值,确定对应强度等级的环境声音下的端点检测阈值,汇总得到环境声音强度与端点检测阈值的映射表;获取环境声音强度;根据获取的环境声音强度,从映射表中,得到对应的端点检测阈值;对音频数据进行端点检测,然后进行语音识别。可以较好的适应当前的环境噪声,使得端点检测更加准确,语音识别的准确率较高且不受环境噪声的影响。

    语音数据处理方法、装置、设备及介质

    公开(公告)号:CN117524228A

    公开(公告)日:2024-02-06

    申请号:CN202410025372.3

    申请日:2024-01-08

    发明人: 王雄

    摘要: 本申请实施例提供了一种语音数据处理方法、装置、设备及介质,该方法包括:从针对第一对象的语音数据流中获取目标帧长的语音唤醒数据;通过一级唤醒模型,对语音唤醒数据进行唤醒词检测处理;在唤醒词检测处理的结果指示语音唤醒数据唤醒第一对象的第一概率高于第一预设阈值的情况下,通过二级唤醒模型对目标数据进行识别处理,目标数据为语音数据流中包含语音唤醒数据的部分;在识别处理的结果指示语音唤醒数据唤醒第一对象的第二概率高于第二预设阈值的情况下,确定唤醒成功,以控制第一对象进入工作状态。本申请基于一级唤醒模型实现唤醒词检测处理,并基于二级唤醒模型实现二次校验处理,能够提高唤醒识别的准确性。

    一种语音检测方法及其装置、电子设备、存储介质

    公开(公告)号:CN117497010A

    公开(公告)日:2024-02-02

    申请号:CN202310579369.1

    申请日:2023-05-19

    摘要: 本公开提供了一种语音检测方法及其装置、电子设备、存储介质,该方法包括:将待检测语音信号输入语音检测模型进行语音检测,得到语音检测结果;语音检测模型包括特征提取模块、编码模块和分类器;特征提取模块用于提取待检测语音信号的声学特征,得到多种声学特征;对多种声学特征进行融合,得到融合声学特征;编码模块用于对融合声学特征进行特征加强处理,得到加强融合声学特征;分类器用于根据加强融合声学特征进行语音检测,得到语音检测结果。根据本公开的实施例提高了低信噪比环境下的语音活性检测性能。

    一种音频识别方法及识别系统

    公开(公告)号:CN117476040A

    公开(公告)日:2024-01-30

    申请号:CN202311788354.2

    申请日:2023-12-25

    摘要: 本发明涉及音频识别与设备监测技术领域,具体涉及一种音频识别方法及识别系统,用于解决现有的基于声音信号的工业设备通用故障检测方法无法对设备各个零件进行实时监控,并不能消除正常声音的干扰,更未做进一步的监测分析,导致音频识别对设备故障的判断不够精确,易于出现误报的情况的问题;通过本发明的一种音频识别方法及识别系统,能够对设备运行过程中的音频数据进行处理和分析,实现了对设备故障的实时、准确识别,并在后续进行进一步监测,提高了故障监测的准确性,避免设备故障造成重大损失,本发明具有较低的误报率和较高的实时性等优点,能够适应不同的设备和应用场景。

    对话式语音识别方法、系统、电子设备和存储介质

    公开(公告)号:CN111508498B

    公开(公告)日:2024-01-30

    申请号:CN202010276065.4

    申请日:2020-04-09

    摘要: 本发明涉及语音识别技术领域,提供一种对话式语音识别方法、系统、电子设备和存储介质。对话式语音识别方法包括:获得对话式语音的双通道音频,对双通道音频进行压缩还原和通道分离,获得单通道的原始音频;对原始音频进行分帧处理,获得多个音频帧,并根据每个音频帧的能量对原始音频进行切割处理,获得多个有效音频段;提取有效音频段的梅尔倒谱特征、声调特征以及有效音频段所在通道的说话人特征,输入语音识别模型,获得有效音频段的识别结果;以及根据各有效音频段的识别结果,生成原始音频的语音识别结果。本发明能实现对双通道的对话式语音的准确切割,并在屏蔽周围杂音的情况下(56)对比文件CN 105118502 A,2015.12.02CN 108597505 A,2018.09.28CN 106782500 A,2017.05.31WO 2018107810 A1,2018.06.21US 2003088402 A1,2003.05.08JP 2009206612 A,2009.09.10JP 2016042152 A,2016.03.31EP 0504927 A2,1992.09.23JP 2004347761 A,2004.12.09US 2017084292 A1,2017.03.23黄光许等.低资源条件下基于i-vector特征的LSTM递归神经网络语音识别系统《.计算机应用研究》.2017,第34卷(第2期),

    识别合成视频的方法、装置、介质及电子设备

    公开(公告)号:CN112926623B

    公开(公告)日:2024-01-26

    申请号:CN202110090365.8

    申请日:2021-01-22

    发明人: 殷翔

    摘要: 本公开涉及一种识别合成视频的方法、装置、介质及电子设备。方法包括:获取待识别视频,其中,所述待识别视频包括音频和图像序列;根据所述音频为合成音频的可能性和所述图像序列为合成图像序列的可能性,确定所述待识别视频是否为合成视频。在获取到待识别视频后,可以根据该待识别视频中的音频为合成音频的可能性和图像序列为合成图像序列的可能性,共同判定该待识别视频是否为合成视频。这样,可以保证合成视频识别的准确度,提升了对合成视频进行识别的效果,从而提高了诸如人脸识别等识别技术的安全性。

    一种应急广播语音活性检测方法、系统、设备及介质

    公开(公告)号:CN117437939A

    公开(公告)日:2024-01-23

    申请号:CN202311022176.2

    申请日:2023-08-15

    摘要: 本发明提供了应急广播技术领域的一种应急广播语音活性检测方法、系统、设备及介质,方法包括:步骤S1、获取应急广播系统输入的音频信号,对音频信号进行分割得到若干段音频帧;步骤S2、分别计算各音频帧的平均能量;步骤S3、对各音频帧计算频谱平坦度以及频率;步骤S4、计算各音频帧的最小平均能量、最小平坦度以及最小频率;步骤S5、设定能量阈值、平坦阈值以及频率阈值,基于能量阈值、平坦阈值、频率阈值、平均能量、频谱平坦度、频率、最小平均能量、最小平坦度以及最小频率进行语音活性检测。本发明的优点在于:实现对应急广播系统的语音活性进行检测,进而极大的降低了应急广播系统的资源浪费,并极大的提升了语音活性检测的稳定性。

    语音VAD尾点确定方法及装置、电子设备和计算机可读介质

    公开(公告)号:CN111627463B

    公开(公告)日:2024-01-16

    申请号:CN201910151776.6

    申请日:2019-02-28

    IPC分类号: G10L25/78 G10L25/87

    摘要: 本公开提供了一种语音VAD尾点确定方法,包括:接收用户的语音信息,对所述语音信息划分数据包,并将数据包按照时序上传给服务器;在判断当前数据包为静音包时,计算当前的静音时长t;根据所述当前的静音时长t和预设的第一阈值T1,触发所述服务器检测所述语音信息的语义完整性,以使所述服务器根据语义完整性检测结果确定所述语音信息的尾点。语音VAD的尾点不再是靠智能设备上进行截断,智能设备将语音信息划分的数据包按照时序上传给服务器,触发服务器检测所述语音信息的语义完整性,以使服务器根据语义完整性检测结果确定所述语音信息的尾点。语音信息的尾点静音时长由原来的固定时长,成为一个可动态调整的值。