-
公开(公告)号:CN118887970A
公开(公告)日:2024-11-01
申请号:CN202410991358.9
申请日:2024-07-23
申请人: 武汉微派网络科技有限公司
摘要: 本发明涉及一种歌曲抢唱识别方法、装置、电子设备和存储介质,属于音频识别技术领域,该方法包括当前用户根据题卡库中随机生成的初始题卡进行歌曲抢唱,从而可以获取当前用户在歌曲抢唱过程中的当前音频数据;进而根据当前音频数据,得到第一音频特征向量和第一旋律特征向量;然后根据第一音频特征向量确定题卡库中的至少一个目标题卡;当初始题卡处于至少一个目标题卡中时,将第一旋律特征向量与初始题卡的第二旋律特征向量进行对比,得到歌曲抢唱识别结果;从而对用户在歌曲抢唱过程中的当前音频数据与初始题卡的音频片段进行识别,从而不是对初始题卡所在的整首歌曲进行识别,从而提高歌曲抢唱识别的准确度,进而达到歌曲抢唱的预期效果。
-
公开(公告)号:CN118841041A
公开(公告)日:2024-10-25
申请号:CN202411219212.9
申请日:2024-09-02
申请人: 人民中科(北京)智能技术有限公司
IPC分类号: G10L25/81 , G10L15/08 , G10L15/26 , G10L25/78 , G06F18/2321 , G06F18/2134
摘要: 本发明涉及音频数据处理技术领域,且公开了一种音频数据自动化片段对齐标注的技术方法,S1,输入后的音频/语音数据首先通过人声分离模块将原始数据分离为音乐音轨和人声音轨两个文件;S2,人声音轨进入有效片段切分模块,模块只使用人声音轨数据进行音频切分;S3,切分后的有效人声片段将被输入到自动语音识别(ASR)模块进行文本转录;S4,片段聚类模块使用DBSCAN聚类算法对文字识别结果进行文本聚类,聚类时使用的特征是文本的TF‑IDF特征。该音频数据自动化片段对齐标注的技术方法,可以极大程度的降低人工标注的时间成本和人力成本,自动化的提供高质量的音频标注数据,推动了音频比对模型的进一步发展与应用。
-
公开(公告)号:CN114333874B
公开(公告)日:2024-07-30
申请号:CN202111387922.9
申请日:2021-11-22
申请人: 腾讯科技(深圳)有限公司
发明人: 梁俊斌
IPC分类号: G10L21/0208 , G10L21/028 , G10L25/81
摘要: 本公开提供一种处理音频信号的方法、一种用户终端、一种电子设备、一种计算机可读存储介质以及一种计算机程序产品。例如,本公开能够对录音(尤其是对包含歌声的录音)进行智能降噪,其通过智能确定当前录音帧是否用于记录人声,并基于该确定的结果自适应地对录音中的不同片段应用不同的降噪方案,从而实现在抑制环境噪声的同时尽可能地保留录音中的人声信号。
-
公开(公告)号:CN117198315A
公开(公告)日:2023-12-08
申请号:CN202311201542.0
申请日:2023-09-15
申请人: 广州酷狗计算机科技有限公司
IPC分类号: G10L21/0272 , G10L25/81 , G10L25/30 , G10L19/16
摘要: 本申请公开了一种旋律信息的提取方法、装置、设备、存储介质及程序产品,属于音频处理技术领域。该方法包括:获取音频信号;将所述音频信号输入至声学特征编码器进行特征提取,得到音频特征向量;采用旋律解码器对所述音频特征向量进行旋律提取,得到所述音频信号对应的token序列;将所述token序列输入至旋律‑token转化器进行转化,得到所述旋律信息中的音符序列。通过上述方法,可直接从音频信号中提取出音符序列,从而得到旋律信息,无需调用人声伴奏分离算法,且不需要对提取的旋律进行额外的后处理,降低了旋律信息提取的计算复杂度,提高了旋律信息提取的效率。
-
公开(公告)号:CN117116294A
公开(公告)日:2023-11-24
申请号:CN202311082711.3
申请日:2023-08-25
申请人: 歌尔科技有限公司
发明人: 黄晨
摘要: 本发明涉及音频处理技术领域,尤其涉及一种音效处理方法、装置、设备及计算机可读存储介质,音效处理方法包括:检测是否存在与待播放音频对应的预设音效处理方案;若存在预设音效处理方案,则按照预设音效处理方案对待播放音频进行音效处理得到目标音频;若不存在预设音效处理方案,则对待播放音频进行音频识别以确定待播放音频的音效处理参数,通过音效处理参数对待播放音频进行音效处理得到目标音频,并基于音效处理参数生成预设音效处理方案;通过目标播放设备播放目标音频。本发明实现了避免对同一音频重复进行音效处理参数识别,降低了音效处理过程中的资源消耗。
-
-
公开(公告)号:CN106409312B
公开(公告)日:2021-12-10
申请号:CN201610601995.6
申请日:2016-07-27
申请人: 汇顶科技(香港)有限公司
发明人: 卢多维克·多米尼克·乔尔·勒保罗克 , 劳伦·勒福舍尔
摘要: 本发明涉及一种音频分类器,该音频分类器包括:第一处理器,该第一处理器具有硬连线逻辑,该硬连线逻辑被配置成接收音频信号且从该音频信号检测音频活动;以及第二处理器,该第二处理器具有可重新配置的逻辑,该可重新配置的逻辑被配置成响应于该第一处理器检测音频活动而将该音频信号分类为一类型的音频信号。
-
公开(公告)号:CN113421595A
公开(公告)日:2021-09-21
申请号:CN202110979720.7
申请日:2021-08-25
申请人: 成都启英泰伦科技有限公司
摘要: 一种利用神经网络的语音活性检测方法,包括模型训练过程和语音活性检测过程;所述模型训练过程包括以下步骤:S1.对用于训练的纯净语音确定端点检测标签;S2.对纯净语音进行随机加噪,构造训练集;S3.逐帧处理,提取训练集中的多阶多分辨率耳蜗图特征向量;S4.构建多层门控制循环单元网络,利用训练集对其进行训练,得到多层门控制循环单元成熟模型,利用成熟模型进行语音活性检测。本发明利用神经网络良好的分类性能,提取带噪语音的特定特征,并通过预先训练好的神经网络模型,对语音以及噪声进行初步分类并求得一个语音存在概率;通过状态机对获得的语音存在概率进行后处理,从而得到一个平滑且相对准确的语音活性检测标识。
-
公开(公告)号:CN111049997B
公开(公告)日:2021-06-11
申请号:CN201911358912.5
申请日:2019-12-25
申请人: 携程计算机技术(上海)有限公司
摘要: 本发明公开了一种电话背景音乐检测模型、方法、系统、设备及介质,其中电话背景音乐检测模型的输入层用于接收电话背景音乐的帧信息并对帧信息进行特征提取得到预设维度的特征;音频CNN层用于通过每一路一维卷积层分别对预设维度的特征进行卷积计算并得到每一路一维卷积层对应的第一特征数据;拼接层用于对第一特征数据进行连接得到第二特征数据;多层卷积层用于对第二特征数据进行逐层卷积计算得到第三特征数据;全连接层用于根据第三特征数据得到帧信息的概率;输出层用于根据概率得到是否为电话背景音乐的判断结果。电话背景音乐检测模型可快速准确的对电话背景音乐的声音内容的进行检测,提高了电话背景音乐检测模型的泛化能力。
-
公开(公告)号:CN112634939A
公开(公告)日:2021-04-09
申请号:CN202011443460.3
申请日:2020-12-11
申请人: 腾讯音乐娱乐科技(深圳)有限公司
发明人: 孔令城
摘要: 本申请公开了一种音频识别方法、装置、设备、介质,该方法包括:获取对待检测歌曲进行预处理后得到的节拍检测结果以及歌曲波谱数据;对节拍检测结果和歌曲波谱数据进行对齐,然后基于节拍检测结果中的节拍对歌曲波谱数据进行截取,得到待检测歌曲波谱片段;提取待检测歌曲波谱片段特征,并基于待检测歌曲波谱片段特征从预设检索库中确定出待检测歌曲对应的原唱歌曲。这样当待检测歌曲为原唱歌曲的翻唱歌曲时,基于节拍对所述歌曲波谱数据进行截取,可以使得截取到的待检测歌曲的歌曲波谱片段和对应的原唱歌曲的变速前相应的歌曲波谱片段包括的歌曲信息相同,由此提高翻唱歌曲的检出率和正确率。
-
-
-
-
-
-
-
-
-