面向边缘智能应用的语音关键词检测系统

    公开(公告)号:CN118351838A

    公开(公告)日:2024-07-16

    申请号:CN202410548608.1

    申请日:2024-05-06

    申请人: 深圳大学

    摘要: 本发明提供了一种面向边缘智能应用的语音关键词检测系统,包括语音关键词检测处理器、音频采集模块及KWS语音识别加速器;语音关键词检测处理器用于检测指令识别按键是否按下;音频采集模块用于指令识别按键被按下时,驱动PDM采集麦克风输入的语音数据;语音关键词检测处理器用于将语音数据发送到KWS语音识别加速器;KWS语音识别加速器用于对语音数据进行MFCC特征提取,并计算MFCC特征与模板的模板匹配距离;语音关键词检测处理器用于根据MFCC特征与模板的模板匹配距离最小的作为语音检测结果。本发明的有益效果在于:能够在边缘端和嵌入式场景下实现实时、高能效的语音关键词检测和语音交互智能应用。

    发送装置、发送方法、接收装置以及接收方法

    公开(公告)号:CN113077800B

    公开(公告)日:2024-07-02

    申请号:CN202110322458.9

    申请日:2015-09-07

    申请人: 索尼公司

    发明人: 塚越郁夫

    摘要: 本申请涉及发送装置、发送方法、接收装置以及接收方法。为了在发送多个类型的音频数据时,降低接收侧上的处理负载。具有元信息的元文件被发送,该元信息用于在接收装置获取包含多个组的编码数据的规定数量的音频流。表示多个组的编码数据的各自属性的属性信息被插入元文件中。例如,表示多个组中的每一组的编码数据包括在哪个音频流中的流对应关系信息被进一步插入至元文件。

    一种人脸身份感知的数字人唇动生成方法和模型训练方法

    公开(公告)号:CN118262015A

    公开(公告)日:2024-06-28

    申请号:CN202410358554.2

    申请日:2024-03-27

    发明人: 薛弘扬

    摘要: 本发明公开了一种人脸身份感知的数字人唇动生成方法和模型训练方法,属于人工智能技术领域。获取驱动语音和待驱动的数字人视频,计算每一帧图像对应的编码后的语音特征;逐帧提取数字人视频每一帧图像的原始人脸特征图、人脸身份向量和人脸3D身份向量,将身份向量、编码后的语音特征拼接并转化为与所述原始人脸特征图相同通道数的融合特征,将融合特征注入原始人脸特征图中,生成合成人脸特征图,解码生成合成人脸图,进一步生成合成的新数字人视频。上述方法采用的模型采用交替训练方式。本发明生成的合成人脸视频具备更高的稳定性,唇部和面部运动更加自然真实,还能够使用更少的数据量和更少的训练周期实现定制化唇动模型。

    一种高速公路异常声音智能监测方法、系统、设备及介质

    公开(公告)号:CN118136053A

    公开(公告)日:2024-06-04

    申请号:CN202410420620.4

    申请日:2024-04-09

    摘要: 本发明属于高速公路异常声音监测技术领域,并公开了一种高速公路异常声音智能监测方法、系统、设备及介质,包括:获取待分析高速环境声音数据;对所述待分析高速环境声音数据进行预处理,得到对应的PLP特征谱图;将所述PLP特征谱图输入环境声音识别网络模型进行分类预测,得到对应的声音类别识别结果;所述环境声音识别网络模型包括依次连接的特征提取模块和声音分类模块;对所述声音类别识别结果进行判断,基于判断结果生成报警信息并将所述报警信息无线传输至用户终端。本发明所述技术方案能够提取事故频发路段异常声音信息,及时发现潜在的交通事故。

    一种检测噪音中含有离散音的方法

    公开(公告)号:CN117953924A

    公开(公告)日:2024-04-30

    申请号:CN202311712663.1

    申请日:2023-12-13

    摘要: 本发明涉及声学测量技术领域,具体涉及一种检测噪音中含有离散音的方法;采集噪音信号,并将噪音信号转换为电信号;将电信号进行预处理;根据麦克风灵敏度和采集卡校准电压对滤波后的电信号进行幅值修正;计算功率谱密度和频率间隔;对所有帧的功率谱密度进行均方值的线性平均,得到平均后的功率谱密度;根据功率谱密度的频率间隔得到频率数组;计算离散音调的声压级;计算临界频带的声压级;计算掩蔽噪声的声压级;计算音噪比;根据噪音在某个频点音噪比值是否大于8dB来判断待测产品噪音是否含有明显可听离散音;通过上述方式,实现了处理临界频带所产生的掩蔽效应,得到更为准确音噪比,从而检测噪音中是否含有离散音。

    合成音频检测方法、装置、电子设备和存储介质

    公开(公告)号:CN117953922A

    公开(公告)日:2024-04-30

    申请号:CN202410102863.3

    申请日:2024-01-24

    摘要: 本发明提供一种合成音频检测方法、装置、电子设备和存储介质,涉及合成音频技术领域。其中方法包括:将待检测音频输入至合成音频检测模型中的特征提取层,得到所述特征提取层输出的音频特征;将所述音频特征输入至所述合成音频检测模型中的合成音频检测层,得到所述合成音频检测层输出的合成音频检测结果;其中,所述合成音频检测模型是基于真实音频样本、伪造音频样本、所述真实音频样本对应的合成音频检测结果标签、所述伪造音频样本对应的合成音频检测结果标签和所述伪造音频样本对应的合成算法标签训练得到的,所述合成算法标签为合成所述伪造音频样本的合成算法。本发明可以提高合成音频检测模型的泛化性。

    一种基于Chirp在音乐中隐藏信息的方法

    公开(公告)号:CN113012703B

    公开(公告)日:2024-03-01

    申请号:CN202110288067.X

    申请日:2021-03-17

    发明人: 朱小军 王玉 韩皓

    摘要: 本发明公开了一种基于Chirp在音乐中隐藏信息的方法,能够在不改变音乐质量的前提下向用户传递信息数据。本发明分为信息发送者和信息接收者两发部分,发送者部分中,首先发送者需要确定传输的信息以及将要播放的音乐,并且将待发送的信息编码为Chirp符号。其次,发送者生成一个固定的序列作为启动信号,并添加在信息编码的Chirp之前。然后,使用新型窗口对Chirp进行预处理。最后将生成的Chirp与音乐混合起来。接收者部分中,接收者首先需要接收音乐,确认帧的开始。然后使用快速傅里叶变换得到幅度值来计算能量和,从而完成解码工作,获取信息。本发明不仅使用户察觉不到Chirp的存在,而且准确度高,有更远的传输距离和更广泛的覆盖范围,易于推广。