一种基于人工智能的语音识别方法

    公开(公告)号:CN116580706A

    公开(公告)日:2023-08-11

    申请号:CN202310861431.6

    申请日:2023-07-14

    发明人: 欧玉霞

    IPC分类号: G10L15/16 G10L15/02 G10L21/14

    摘要: 本发明涉及语音识别领域,公开了一种基于人工智能的语音识别方法,该方法包括以下步骤:通过采集用户录入的语音音频信息,将所述语音音频信息转换为音频频谱图;获取所述音频频谱图中的多个音频帧,提取每个所述音频帧中的特征信息,关联多个所述音频帧的特征信息,得到待识别数据;将所述待识别数据输入语音识别模型中,确定所述语音音频信息对应的语音内容;对所述语音内容进行内容校验,以得到语音识别结果,并输出所述语音识别结果;本发明利用人工智能方法进行语音识别,能够提高便利性,同时提高了语音识别效率和准确度,提升了用户的使用体验。

    一种自适应降噪的柱塞泵音频故障特征提取方法

    公开(公告)号:CN115662458A

    公开(公告)日:2023-01-31

    申请号:CN202211413590.1

    申请日:2022-11-11

    摘要: 本发明公开了一种自适应降噪的柱塞泵音频故障特征提取方法,属于故障诊断技术领域。本发明为解决由于柱塞泵背景噪音较强,导致故障发生时的音频信号特征难以提取问题。包括以下步骤:首先利用传感器采集运行中的柱塞泵一维音频信号,作为原始音频信号;其次对原始音频信号进行Gammatone倒谱变换,将音频信号转换到时频域;然后对时频信号进行预处理,将其中小于平局能量的信号归一化至最小能量,使时频信号的能量直方图出现双峰;最后从预处理后的信号能量直方图中定位双峰的位置,选取双峰之间的最小能量值作为降噪阈值,将信号中小于该能量的信号点归一化至最小能量,最终得到降噪后的柱塞泵音频时频信号。

    音乐可视化的方法、装置及系统

    公开(公告)号:CN110580912B

    公开(公告)日:2022-02-22

    申请号:CN201911004866.9

    申请日:2019-10-21

    发明人: 闫震海

    IPC分类号: G10L21/14 G10L25/18 G10L25/21

    摘要: 本发明实施例公开了一种音乐可视化方法,该方法包括:获取第一音频帧的第一功率谱;根据第一功率谱中各个频点的功率谱数据,确定第一功率谱的多个第一频点和第二频点;根据多个第一频点和第二频点,得到第一功率谱的第一频带;对第二频带做数轴映射得到第一压缩频带,第二频带为小于第一频带的最小频点的频率范围;对第三频带做数轴映射得到第二压缩频带,第三频带为大于第一频带的最大频点的频率范围;结合第一压缩频带、第二压缩频带和第一频带得到第一音频帧的第二功率谱。采用本发明实施例,可以针对不同音乐的个性化特征,为其量身定做一个有效的功率谱显示窗口,从而使音乐可视化效果更加符合人耳听感。

    基于音频相似度的音乐推荐方法、系统、装置及存储介质

    公开(公告)号:CN114036339A

    公开(公告)日:2022-02-11

    申请号:CN202111275727.7

    申请日:2021-10-29

    申请人: 广州大学

    发明人: 朱恩强 刘帅

    摘要: 本发明公开了一种基于音频相似度的音乐推荐方法、系统、装置及存储介质,包括:获取历史音乐的第一音频文件;将第一音频文件转换成第一声谱图;将第一声谱图转换成第一色度梯度图,将第一色度梯度图输入到训练好的色度特征提取模型以获得第一色度梯度矩阵;获取待选择音乐的第二音频文件,将第二音频文件转换成第二声谱图;将第二声谱图转换成第二色度梯度图,将第二色度梯度图输入到训练好的色度特征提取模型以获得第二色度梯度矩阵;计算第一色度梯度矩阵与第二色度梯度矩阵的相似度,并根据相似度确定推荐音乐。本发明实施例能够根据音乐的本质属性寻找并推荐相似度高的音乐,更符合用户需求,提高用户体验,可广泛应用于信息处理技术领域。

    一种畜禽音频指纹提取方法及装置

    公开(公告)号:CN113889119A

    公开(公告)日:2022-01-04

    申请号:CN202111082663.9

    申请日:2021-09-15

    摘要: 本发明提供一种畜禽音频指纹提取方法及装置,所述方法包括:按预设采样周期采集目标畜禽的多个音频片段;针对任一目标音频片段,将所述目标音频片段转换成声谱图,并根据预设的至少一个掩模确定所述声谱图中的多个谱区域;确定每个谱区域的均值能量,所述均值能量为所述谱区域所包含的所有点的能量值的平均值;获取每个掩模对应的多个谱区域的均值能量之间的差值,并根据所述差值生成所述目标音频片段的音频指纹;获取每个所述音频片段所对应的音频指纹,并根据所有音频指纹确定所述目标畜禽的目标音频指纹。本发明通过将目标畜禽的音频片段转换为二进制数组,大大减少了数据量,提高了畜禽音频检索与识别的效率。

    音频播放方法、设备、存储介质及装置

    公开(公告)号:CN113641327A

    公开(公告)日:2021-11-12

    申请号:CN202010396040.8

    申请日:2020-05-11

    发明人: 庄先典

    IPC分类号: G06F3/16 G10L19/16 G10L21/14

    摘要: 本发明涉及音频播放技术领域,公开了一种音频播放方法、设备、存储介质及装置。本发明通过在目标网页接收到多路待播放直播流时,将多路所述待播放直播流分别转换为对应的音频数据传输流;分别对各音频数据传输流进行解码,获得多路音频数据;对多路所述音频数据进行合并,获得目标音频;对所述目标音频进行播放,以实现多路直播流的音频播放,从而可在不同浏览器的网页上实现多路直播流的音频播放。