-
公开(公告)号:CN104254887A
公开(公告)日:2014-12-31
申请号:CN201380018531.7
申请日:2013-09-20
申请人: 希特兰布公司
CPC分类号: G10L25/60 , G10H1/361 , G10H2210/091 , G10H2240/046 , G10H2240/105 , G10H2250/235 , G10H2250/281 , G10L25/90 , G10L2025/906
摘要: 记录卡拉OK用户的表演,且依据所述用户对歌曲的再现的所记录文件,将音符(即,所唱的曲调)与对应歌曲的参考文件的音符(即,曲调)进行比较。所述比较基于所唱音符(即,清唱声音)的样本块的分析,且在检测到所述音符的能量包络后,考虑音高和所述音符的持续时间。所述比较的结果给出依据音高和音符持续时间对所述卡拉OK表演的评估(作为得分)。
-
公开(公告)号:CN102598119B
公开(公告)日:2014-12-03
申请号:CN201080021855.2
申请日:2010-04-07
申请人: 剑桥硅无线电有限公司
发明人: 萨默尔·加德尔 , 其他发明人请求不公开姓名
IPC分类号: G10L25/90 , G10L19/005
CPC分类号: G10L25/90 , G10H2210/066 , G10L19/005
摘要: 一种用于估计信号的基音周期的方法和装置。该方法包括:通过仅在潜在基音周期的第一范围上执行搜索来识别第一候选基音周期。该方法还包括:通过将第一候选基音周期除以整数来确定第二候选基音周期,其中,第二候选基音周期在潜在基音周期的第一范围之外。该方法还包括:选择候选基音周期中的较小者作为信号的基音周期的估计,该候选基音周期中的较小者使得以此候选基音周期分离的信号部分被良好相关。
-
公开(公告)号:CN104170011A
公开(公告)日:2014-11-26
申请号:CN201380001483.0
申请日:2013-10-16
申请人: 视听公司
IPC分类号: G10L25/90
CPC分类号: H04R3/002 , G10H1/361 , H04R3/005 , H04R3/02 , H04R27/00 , H04R2227/003 , H04R2410/05 , H04R2420/07 , H04R2499/11 , H04S2400/15
摘要: 本发明提供用于在移动装置上提供卡拉OK录制及重放的系统及方法。所述移动装置可播放音乐音频及相关联视频,且经由一个或一个以上麦克风接收用户话音、音乐及背景噪声的混合。所述混合既以其原始形式存储,且又经过噪声抑制及其它处理进行处理之后而存储,以增强话音及声音。所存储的音频可通过通信网络上载到基于云的计算环境,用以在其它移动装置上聆听。可提供可选择的播放控制及录制选项。可在原始声学声音的信号处理期间确定音频提示且将其存储在所述移动装置上。在所录制的音频及(任选地)相关联视频的重放期间,可使用所述原始声学声音、所录制的提示及用户可选择的任选处理在重放期间再次混合,同时保留所述原始录制。
-
-
公开(公告)号:CN103038821A
公开(公告)日:2013-04-10
申请号:CN201180037426.9
申请日:2011-07-29
申请人: 高通股份有限公司
IPC分类号: G10L19/038 , G10L25/90
CPC分类号: G10L25/90 , G10L19/038 , G10L19/093
摘要: 一种用于对表示信号的音频范围的变换系数集合进行译码的方案使用谐波模型来使频域中的显著能量区的位置之间的关系参数化。
-
公开(公告)号:CN103038820A
公开(公告)日:2013-04-10
申请号:CN201180037191.3
申请日:2011-07-29
申请人: 高通股份有限公司
IPC分类号: G10L19/038 , G10L25/90
CPC分类号: G10L25/90 , G10L19/038 , G10L19/093
摘要: 一种用于对表示信号的音频-频率范围的一组变换系数进行译码的方案使用来自描述所述信号的先前帧的参考帧的信息来确定所述信号的目标帧中的显著能量区的频域位置。
-
公开(公告)号:CN102254556B
公开(公告)日:2013-04-10
申请号:CN201110184213.0
申请日:2011-05-17
申请人: 阿瓦雅公司
发明人: 保罗·若勒·麦克里斯
CPC分类号: G10L25/90 , G09B19/04 , G10L15/142 , G10L15/1807 , G10L15/187 , G10L15/22 , G10L25/00 , H04M3/51 , H04M3/56
摘要: 本发明涉及基于听者和说者的讲话风格比较估计听者理解说者的能力。描述了一种自动通讯系统附件,该附件“聆听”一个或多个参与者的说话风格,标识表示他们的风格的差异的具体特性,特别是口音,但也包括发音准确性,语速,语调,节奏,声调,协同发音,音节重读和音节持续时间中的一者或多者,并且例如利用对可能影响特定听者的可理解性的独立可测量讲话分量进行适当加权并且然后组合成指示所估计出的听者可理解所说内容的容易度的单个整体评分的数学模型,并且基于该评分向讲话者呈现实时反馈。此外,该系统可以为讲话者提供关于如何提高可理解性的建议。
-
公开(公告)号:CN118553254B
公开(公告)日:2024-11-05
申请号:CN202411018524.3
申请日:2024-07-26
申请人: 北京小米移动软件有限公司
IPC分类号: G10L21/003 , G10L21/013 , G10L25/06 , G10L25/90 , G10L25/30 , G10H7/00 , G06N3/0464 , G06N3/0455 , G06N3/0442 , G06N3/048
摘要: 本公开涉及一种音频合成方法、装置、设备、存储介质和程序产品,涉及数据处理技术领域,该方法包括:通过获取待处理音频的原始合成数据,该原始合成数据包括目标伴奏、目标基音特征和目标干净音频,目标基音特征和目标干净音频基于待处理音频得到,并通过目标合成模型对原始合成数据进行处理,得到目标合成音频,该目标合成模型基于多个样本合成数据训练基础合成模型得到,样本合成数据包括样本伴奏、样本基音特征、样本干净音频以及真实合成音频。以便使该目标合成模型能够基于用户的目标伴奏、目标基音特征和目标干净音频,生成更加自然且更加接近用户的真实声音的歌声。
-
公开(公告)号:CN118471253B
公开(公告)日:2024-10-11
申请号:CN202410917115.0
申请日:2024-07-10
申请人: 厦门理工学院
摘要: 本发明提供了基于音高调制的音频稀疏对抗攻击方法、装置、设备及介质,包括:进行音调移位,将输入音频进行音调移位,以改变音频的频率并引发ASR系统的初步误识别;使用语音活动检测识别音频中的活跃语音片段,生成二进制掩码以标识这些片段;进行稀疏噪声生成;将优化后的扰动向量与掩码向量相结合,生成最终的对抗性音频样本,使其能够有效攻击ASR系统并且难以被人耳察觉。本发明实现了在保持对抗性音频可听性的同时,简化攻击过程并提高了对抗性噪声的隐蔽性和有效性。
-
公开(公告)号:CN118609563A
公开(公告)日:2024-09-06
申请号:CN202410795339.9
申请日:2024-06-19
申请人: 国家电网有限公司 , 国网福建省电力有限公司 , 国网福建省电力有限公司电力科学研究院
IPC分类号: G10L15/22 , G10L15/08 , G10L19/02 , G10L19/26 , G10L21/0232 , G10L25/18 , G10L25/24 , G10L25/87 , G10L25/90 , G10L17/04 , H04L9/32 , H04L9/40
摘要: 本发明公开了一种基于动态密码声纹鉴权的机器人临时控制方法及系统,控制方法包括以下步骤:提取用户的第一声纹特征,构建声纹模型并保存;生成具有时效性的动态口令并通知用户;实时监听环境声音,检测到关键词时连续录音,生成音频文件;提取音频文件的第二声纹特征,将所述第二声纹特征与声纹模型进行比对;提取所述音频文件中的口令特征,与保存的口令比对;使用自然语言处理技术解析比对成功的音频文件,生成动作指令发送至执行终端;执行终端根据收到的动作指令执行相应的动作。本发明能够快速准确地从短时录音中提取声纹特征进行身份鉴别和时效授权,有效提高识别准确率,增强鲁棒性以及增加声纹特征的区分能力。
-
-
-
-
-
-
-
-
-