一种非接触式留置谈话虚假音频检测方法及系统

    公开(公告)号:CN118588064B

    公开(公告)日:2024-10-22

    申请号:CN202411035296.0

    申请日:2024-07-31

    发明人: 高岩 孟广东 张磊

    摘要: 本申请涉及音频检测技术领域,具体涉及一种非接触式留置谈话虚假音频检测方法及系统。该方法包括:采集待测人员的历史音频数据和待检测音频数据;并将其划分为相对应的局部音频序列,通过其中共振峰的差异获取共振变化度;将音频数据分类,根据类别相似度确定待测音频集合;相同的获取历史音频集合,根据音频集合所对应文本之间的相似性和词语的匹配度语境相似度,并根据语境相似度筛选参考音频数据;根据音频数据对应文本的长度和音频集合的时间特性获取情绪波动值;并结合音频集合之间频谱图差异和相似度构建谈话置信率,根据谈话置信率完成虚假音频检测。本申请提高了虚假音频检测效率与精度。

    一种语音识别功能的唤醒方法、装置及设备

    公开(公告)号:CN115116441B

    公开(公告)日:2024-10-22

    申请号:CN202210735039.2

    申请日:2022-06-27

    IPC分类号: G10L15/22 G10L25/78 H04R1/10

    摘要: 本申请提供的一种语音识别功能的唤醒方法、装置及设备,涉及语音检测领域。该方法通过获取语音信号的活动检测结果,活动检测结果包括:多次检测到语音信号产生的多个中断信号;对多个中断信号进行统计;根据统计结果,判断活动检测结果是否满足预设有效中断条件;若活动检测结果满足预设有效中断条件,则确定语音信号处于活动状态,并唤醒语音识别功能,以对采集到的语音信号进行识别。从而,通过检测中断信号,确定语音信号的活动状态,再唤醒语音识别功能,以此过滤掉部分误识别信息,降低VAD模块误识别率,降低了语音识别的功耗。

    语音处理方法、设备、车辆、存储介质和程序产品

    公开(公告)号:CN118737111A

    公开(公告)日:2024-10-01

    申请号:CN202410983755.1

    申请日:2024-07-22

    摘要: 本申请公开了一种语音处理方法、设备、车辆、存储介质和程序产品,涉及语音处理的技术领域,包括:首先,对在车内第一位置处采集到的第一语音进行混淆掩蔽处理,得到第二语音,以此,通过混淆掩蔽处理后,使得难以从第二语音中获知采集到的第一语音中所携带的原始信息;然后,基于第一音频对该第二语音进行防啸叫处理,和/或,基于第二音频对该第二语音进行听感优化处理,得到目标语音,以此,通过第一音频对第二语音进行防啸叫处理,从而实现防啸叫的语音屏蔽效果,另外,还可以通过第二音频对第二语音进行听感优化处理,从而提高目标语音的实际听感舒适度;最终,向至少一车内的第二位置输出目标语音。

    一种基于无参的语音安全评估方法及系统

    公开(公告)号:CN118609597A

    公开(公告)日:2024-09-06

    申请号:CN202410690959.6

    申请日:2024-05-30

    申请人: 重庆大学

    摘要: 本发明涉及一种基于无参的语音安全评估方法及系统,属于语音安全评估技术领域。该方法包括以下步骤:制作加密语音数据集,将数据集划分为训练集和验证集;将加密语音数据集经过语音活跃检测算法去除其中的静音信号区域,获得活跃信号区域;对所述活跃信号区域利用里昂耳蜗模型、主成分分析算法、梅尔频率倒谱系数算法进行语音特征的提取,并对提取到的特征向量进行加权组合;利用主观听觉测试获得语音的主观平均意见分数,并将其添加到组合后的语音特征向量的维度中;利用最终获得的特征向量集训练高斯混合模型GMM;将语音信号输入训练好的GMM模型,即可获得其安全评分,实现语音安全评估。本方案速度快且成本低,并提升了模型的准确性与鲁棒性。

    一种数字人稳定口型的训练方法、装置

    公开(公告)号:CN118471251B

    公开(公告)日:2024-09-03

    申请号:CN202410910618.5

    申请日:2024-07-09

    摘要: 本发明提供了一种数字人稳定口型的训练方法、装置,通过关键点检测,裁剪获取人脸图像数据,将人脸图像数据分为全局人脸区域和局部人脸区域,分别计算全局人脸区域和局部人脸区域的vgg loss;通过使用多帧人脸的平滑,达到连续帧人脸之间具有高度连续性;使用预设的音频检测模型检测出静音段,根据所述静音段对应的嘴部连续帧,计算vgg特征,并计算帧间特征差值,将特征差值作为数字人模型的损失;获取两个参考帧、一个前一帧和一个当前帧作为数字人模型的输入,输出人脸图像;使用多帧传递的方式进行模型输出的loss计算,以完成对数字人模型的训练。解决现有数字人的口型驱动方案,经常会出现说话时和不说话时数字人嘴巴抖动问题。

    声音定位装置与方法
    7.
    发明授权

    公开(公告)号:CN113156370B

    公开(公告)日:2024-08-27

    申请号:CN202010261340.5

    申请日:2020-04-03

    发明人: 李明唐 朱仲石

    IPC分类号: G01S5/20 G10L25/78

    摘要: 本发明公开了一种声音定位装置与方法,能够适当地决定语音来向。该声音定位装置包含:一空间特征发生器,用来依据一麦克风阵列的N个麦克风的信号产生M个空间特征信号;一语音检测器,用来依据该N个麦克风的信号的至少其中之一产生至少一语音检测信号;一角度选择器,用来依据该M个空间特征信号输出一候选角度信号指出一候选声音角度;以及一角度取回器,用来依据该M个空间特征信号产生一声源检测结果指出是否有任何声源存在,再依据该声源检测结果、该至少一语音检测信号与该候选角度信号来输出一估测角度信号。

    一种语音的话音与非话音的综合判决方法

    公开(公告)号:CN114242116B

    公开(公告)日:2024-08-02

    申请号:CN202210006259.1

    申请日:2022-01-05

    摘要: 本发明涉及一种语音的话音与非话音的综合判决方法,包括:对输入的语音数据进行分帧处理得到第一分帧语音数据和第二分帧语音数据;对第一分帧语音数据进行预处理,获取每帧语音数据进行时频转换与倒谱系数,并将经过预处理后的数据输入语音识别网络判断语音的话音段占整个语音段的比例;当话音信号占比大于预设值时,通过结合短时自相关法与谱减法的方法进行语音降噪处理;结合短时相关法与能熵比的方法对语音端点进行检测,并将检测后的语音数据中话音语段标记为话音,其余语段标记为非话音,最后输出话音数据。本发明提高了语音判决的适用性,使得在复杂情况下的话音与非话音的判决的适用范围增大,进一步提高方法在语音判决的适用性。

    一种基于单片机音频通信的实现方法

    公开(公告)号:CN112017689B

    公开(公告)日:2024-08-02

    申请号:CN201910393398.2

    申请日:2019-05-13

    发明人: 林荣坤

    摘要: 本发明公开了一种基于单片机音频通信的实现方法,包括以下步骤:S1、主板上的单片机输入音频信号进行发送音频信号,判断总线空闲检测,若是,执行数据发送模块;发送完成返回主循环入口;若否,执行接收解码处理;S2、数据发送模块取出一位数到发送缓存,判断数据是否已经取完;S3、接收解码处理开始接收,通过计数总线音频信号模块和计数总线空白时间模块计算音频与空白时间比例,得到数据位为1或0。本发明通过LC谐振方式,单片机发送信号时输入音频信号,通过电容输出接于电感上与电感产生谐振,另一端通过电容接于数据脚,解出音频信号;单片机在解码时通过对于音频信号的宽度解成一个方波有效宽度;不同的音频组合就解出了一串通信数据。

    一种字幕修正方法、系统、设备、存储介质和程序产品

    公开(公告)号:CN118398015A

    公开(公告)日:2024-07-26

    申请号:CN202410404365.4

    申请日:2024-04-03

    发明人: 刘旭明

    摘要: 本申请提供一种字幕修正方法、系统、设备、存储介质和程序产品,该方法包括:将目标音频流进行分段;获取目标分段,以及目标分段对应的第一波形图,其中,目标分段为目标音频流中未生成转写结果的分段,且目标分段中包含人声信息;基于所述第一波形图确定的所述目标分段中人声信息对应的时间信息,和,基于所述目标分段的人声信息确定的字幕信息,修正所述目标音频流的转写结果。本申请实施例中通过第一波形图能够直观、快速并且准确地确定获得目标分段中人声信息对应的时间信息;通过获取的时间信息和字幕信息,能够有效并且快速地补充和修正字幕,提高修正结果的效率,增加转写结果的精确度。