-
公开(公告)号:CN118430547A
公开(公告)日:2024-08-02
申请号:CN202410653483.9
申请日:2024-05-24
申请人: 合肥优尔电子科技有限公司
IPC分类号: G10L17/06 , G10L17/04 , G10L15/05 , G10L15/26 , G10L15/18 , G10L19/16 , G10L25/27 , G10L19/022 , G10L25/87
摘要: 本发明公开了一基于深度学习的非自回归语音识别方法、设备及其介质,该方法包括:1、构建语音识别数据集以及数据的预处理;2、构建语音端点检测、语音识别、标点预测、以及说话人识别模型。本发明拥有完整的语音识别链路,能够处理长音频,同时支持分角色语音识别,这不仅有助于提高客服场景下的自动化水平,降低人力成本,还能提升用户体验。
-
公开(公告)号:CN118351838A
公开(公告)日:2024-07-16
申请号:CN202410548608.1
申请日:2024-05-06
申请人: 深圳大学
IPC分类号: G10L15/08 , G10L19/02 , G10L19/022 , G10L25/18 , G10L25/24
摘要: 本发明提供了一种面向边缘智能应用的语音关键词检测系统,包括语音关键词检测处理器、音频采集模块及KWS语音识别加速器;语音关键词检测处理器用于检测指令识别按键是否按下;音频采集模块用于指令识别按键被按下时,驱动PDM采集麦克风输入的语音数据;语音关键词检测处理器用于将语音数据发送到KWS语音识别加速器;KWS语音识别加速器用于对语音数据进行MFCC特征提取,并计算MFCC特征与模板的模板匹配距离;语音关键词检测处理器用于根据MFCC特征与模板的模板匹配距离最小的作为语音检测结果。本发明的有益效果在于:能够在边缘端和嵌入式场景下实现实时、高能效的语音关键词检测和语音交互智能应用。
-
公开(公告)号:CN113077800B
公开(公告)日:2024-07-02
申请号:CN202110322458.9
申请日:2015-09-07
申请人: 索尼公司
发明人: 塚越郁夫
IPC分类号: G10L19/008 , G10L19/02 , G10L19/022 , H04S5/02
摘要: 本申请涉及发送装置、发送方法、接收装置以及接收方法。为了在发送多个类型的音频数据时,降低接收侧上的处理负载。具有元信息的元文件被发送,该元信息用于在接收装置获取包含多个组的编码数据的规定数量的音频流。表示多个组的编码数据的各自属性的属性信息被插入元文件中。例如,表示多个组中的每一组的编码数据包括在哪个音频流中的流对应关系信息被进一步插入至元文件。
-
公开(公告)号:CN118262015A
公开(公告)日:2024-06-28
申请号:CN202410358554.2
申请日:2024-03-27
申请人: 浙江大学 , 杭州一知智能科技有限公司
发明人: 薛弘扬
IPC分类号: G06T13/20 , G10L19/022 , G10L19/16 , G10L25/03 , G10L25/57 , G06T13/40 , G06V40/16 , G06V10/80 , G06V10/82 , G06N3/0455 , G06N3/0464 , G06N3/084
摘要: 本发明公开了一种人脸身份感知的数字人唇动生成方法和模型训练方法,属于人工智能技术领域。获取驱动语音和待驱动的数字人视频,计算每一帧图像对应的编码后的语音特征;逐帧提取数字人视频每一帧图像的原始人脸特征图、人脸身份向量和人脸3D身份向量,将身份向量、编码后的语音特征拼接并转化为与所述原始人脸特征图相同通道数的融合特征,将融合特征注入原始人脸特征图中,生成合成人脸特征图,解码生成合成人脸图,进一步生成合成的新数字人视频。上述方法采用的模型采用交替训练方式。本发明生成的合成人脸视频具备更高的稳定性,唇部和面部运动更加自然真实,还能够使用更少的数据量和更少的训练周期实现定制化唇动模型。
-
公开(公告)号:CN118136053A
公开(公告)日:2024-06-04
申请号:CN202410420620.4
申请日:2024-04-09
申请人: 上海理工大学
摘要: 本发明属于高速公路异常声音监测技术领域,并公开了一种高速公路异常声音智能监测方法、系统、设备及介质,包括:获取待分析高速环境声音数据;对所述待分析高速环境声音数据进行预处理,得到对应的PLP特征谱图;将所述PLP特征谱图输入环境声音识别网络模型进行分类预测,得到对应的声音类别识别结果;所述环境声音识别网络模型包括依次连接的特征提取模块和声音分类模块;对所述声音类别识别结果进行判断,基于判断结果生成报警信息并将所述报警信息无线传输至用户终端。本发明所述技术方案能够提取事故频发路段异常声音信息,及时发现潜在的交通事故。
-
公开(公告)号:CN117953924A
公开(公告)日:2024-04-30
申请号:CN202311712663.1
申请日:2023-12-13
申请人: 方博科技(深圳)有限公司
IPC分类号: G10L25/87 , G10L25/51 , G10L25/18 , G10L25/21 , G10L21/0208 , G10L21/0232 , G10L21/0332 , G10L19/022 , G10L19/02 , G01M13/00 , G01M99/00
摘要: 本发明涉及声学测量技术领域,具体涉及一种检测噪音中含有离散音的方法;采集噪音信号,并将噪音信号转换为电信号;将电信号进行预处理;根据麦克风灵敏度和采集卡校准电压对滤波后的电信号进行幅值修正;计算功率谱密度和频率间隔;对所有帧的功率谱密度进行均方值的线性平均,得到平均后的功率谱密度;根据功率谱密度的频率间隔得到频率数组;计算离散音调的声压级;计算临界频带的声压级;计算掩蔽噪声的声压级;计算音噪比;根据噪音在某个频点音噪比值是否大于8dB来判断待测产品噪音是否含有明显可听离散音;通过上述方式,实现了处理临界频带所产生的掩蔽效应,得到更为准确音噪比,从而检测噪音中是否含有离散音。
-
公开(公告)号:CN117953922A
公开(公告)日:2024-04-30
申请号:CN202410102863.3
申请日:2024-01-24
申请人: 合肥讯飞数码科技有限公司
IPC分类号: G10L25/69 , G10L25/03 , G10L19/18 , G10L19/022
摘要: 本发明提供一种合成音频检测方法、装置、电子设备和存储介质,涉及合成音频技术领域。其中方法包括:将待检测音频输入至合成音频检测模型中的特征提取层,得到所述特征提取层输出的音频特征;将所述音频特征输入至所述合成音频检测模型中的合成音频检测层,得到所述合成音频检测层输出的合成音频检测结果;其中,所述合成音频检测模型是基于真实音频样本、伪造音频样本、所述真实音频样本对应的合成音频检测结果标签、所述伪造音频样本对应的合成音频检测结果标签和所述伪造音频样本对应的合成算法标签训练得到的,所述合成算法标签为合成所述伪造音频样本的合成算法。本发明可以提高合成音频检测模型的泛化性。
-
公开(公告)号:CN113012703B
公开(公告)日:2024-03-01
申请号:CN202110288067.X
申请日:2021-03-17
申请人: 南京航空航天大学
IPC分类号: G10L19/018 , G10L19/02 , G10L19/022 , G10L21/0208
摘要: 本发明公开了一种基于Chirp在音乐中隐藏信息的方法,能够在不改变音乐质量的前提下向用户传递信息数据。本发明分为信息发送者和信息接收者两发部分,发送者部分中,首先发送者需要确定传输的信息以及将要播放的音乐,并且将待发送的信息编码为Chirp符号。其次,发送者生成一个固定的序列作为启动信号,并添加在信息编码的Chirp之前。然后,使用新型窗口对Chirp进行预处理。最后将生成的Chirp与音乐混合起来。接收者部分中,接收者首先需要接收音乐,确认帧的开始。然后使用快速傅里叶变换得到幅度值来计算能量和,从而完成解码工作,获取信息。本发明不仅使用户察觉不到Chirp的存在,而且准确度高,有更远的传输距离和更广泛的覆盖范围,易于推广。
-
公开(公告)号:CN117238300A
公开(公告)日:2023-12-15
申请号:CN202311130088.4
申请日:2017-01-20
申请人: 弗劳恩霍夫应用研究促进协会
发明人: 吉约姆·福克斯 , 伊曼纽尔·拉维利 , 马库斯·缪特拉斯 , 马库斯·施内尔 , 斯蒂芬·多拉 , 马丁·迪茨 , 戈兰·马尔科维奇 , 埃伦妮·福托波罗 , 斯特凡·拜尔 , 沃尔夫冈·耶格斯
IPC分类号: G10L19/008 , G10L19/04 , G10L19/02 , G10L19/022 , G10L25/18 , H04S3/00
摘要: 使用用于将取样值的块的序列转换成频谱值的块的序列的时间‑频谱转换器、用于对频谱值的块应用联合多声道处理以获得块的至少一个结果序列的多声道处理器、用于将频谱值的块的结果序列转换成包括取样值的块的输出序列的时域表示的频谱‑时间转换器以及用于对取样值的块的输出序列进行编码以获得经编码的多声道信号的核心编码器对多声道音频信号进行编码,其中核心编码器以第一帧控制进行操作,并且其中时间‑频谱转换器或频谱‑时间转换器以与第一帧控制同步的第二帧控制进行操作。
-
公开(公告)号:CN108885879B
公开(公告)日:2023-09-15
申请号:CN201780019674.8
申请日:2017-01-20
申请人: 弗劳恩霍夫应用研究促进协会
发明人: 吉约姆·福克斯 , 伊曼纽尔·拉维利 , 马库斯·缪特拉斯 , 马库斯·施内尔 , 斯蒂芬·多拉 , 马丁·迪茨 , 戈兰·马尔科维奇 , 埃伦妮·福托波罗 , 斯特凡·拜尔 , 沃尔夫冈·耶格斯
IPC分类号: G10L19/022 , G10L19/008
摘要: 使用用于将取样值的块的序列转换成频谱值的块的序列的时间‑频谱转换器、用于对频谱值的块应用联合多声道处理以获得块的至少一个结果序列的多声道处理器、用于将频谱值的块的结果序列转换成包括取样值的块的输出序列的时域表示的频谱‑时间转换器以及用于对取样值的块的输出序列进行编码以获得经编码的多声道信号的核心编码器对多声道音频信号进行编码,其中核心编码器以第一帧控制进行操作,并且其中时间‑频谱转换器或频谱‑时间转换器以与第一帧控制同步的第二帧控制进行操作,其中起始帧边界或结束帧边界与时间‑频谱转换器使用的窗口的重叠部分的起始时刻或结束时刻呈预定关系。
-
-
-
-
-
-
-
-
-