-
公开(公告)号:CN106504768A
公开(公告)日:2017-03-15
申请号:CN201610921879.2
申请日:2016-10-21
申请人: 百度在线网络技术(北京)有限公司
CPC分类号: H04M3/42059 , G06N3/0445 , G06N3/0454 , G06N3/08 , G10L25/30 , G10L25/51 , G10L25/78 , H04M3/26 , H04M2203/2027 , G10L17/08
摘要: 本发明提出一种基于人工智能的电话拨测音频分类方法及装置,其中,该方法包括:获取电话拨测音频数据;利用预设的分类器,对所述电话拨测音频数据进行处理,确定所述电话拨测音频与各类型的相似度,其中,所述预设的分类器为根据历史电话拨测音频数据及其分别对应的电话类型,确定的深度学习模型;根据所述电话拨测音频与各类型的相似度,确定所述电话拨测音频对应的电话类型。通过本发明提供的基于人工智能的电话拨测音频分类方法及装置,实现了利用机器学习的方法,对电话拨测音频进行分类,以确认用户是否是正常用户,从而节省了人工成本,提高了拨测效率。
-
公开(公告)号:CN105981056A
公开(公告)日:2016-09-28
申请号:CN201580008280.3
申请日:2015-02-12
申请人: 高通股份有限公司
摘要: 一种音频源分离方法包括选择音频信号的音频属性。该方法还包括将由单个源主导的音频属性部分表示为源尖峰事件。另外,该方法包括将音频信号的其余部分表示为音频信号尖峰事件。该方法还包括基于源尖峰事件与音频信号尖峰事件的一致性来确定该其余部分是否与该单个源一致。
-
公开(公告)号:CN105513609A
公开(公告)日:2016-04-20
申请号:CN201510844022.0
申请日:2015-11-26
申请人: 中国船舶工业系统工程研究院
摘要: 一种水声目标信号声纹特征提取装置和方法,主要包括用于获取水声目标信号的原始信号谱的信号获取模块,用于从原始信号谱中提取出目标的基频和谐波的特征提取模块,利用原始信号谱、目标的基频和谐波对原始信号谱进行重构,得到声纹特征的重构模块,本发明可以有效提取水声目标信号声纹特征中的谐波成分,并具有一定的抗噪声干扰和频率漂移能力。
-
公开(公告)号:CN105321525A
公开(公告)日:2016-02-10
申请号:CN201510638936.1
申请日:2015-09-30
申请人: 北京邮电大学
CPC分类号: G10L25/24 , G10L15/063 , G10L25/30 , G10L25/84
摘要: 本发明公开了一种降低VOIP通信资源开销的系统,包括输入层,卷积层,子采样层和输出层,每一层均由特征图谱构成,每一维特征图谱含有神经元;应用该系统降低VOIP通信资源开销的方法,具体为:一、训练卷积神经网络系统;二、初始化卷积神经网络系统;三、将待测语音输入VAD系统;四、按序每一帧提取语音特征参数MFCC及其一阶差分特征参数;五、将每一帧参数组成一维特征图谱带入卷积神经网络系统;六、卷积神经网络系统将按序输出待测语音每一帧的结果[x,y],VAD系统判决并记录结果。优点在于:将卷积神经网络系统引入到VAD系统进行检测,降低VAD系统的误判率,节省计算时间和带宽,能够在保证通信质量的情况下减少VOIP的语音资源开销。
-
公开(公告)号:CN105070288A
公开(公告)日:2015-11-18
申请号:CN201510382215.9
申请日:2015-07-02
申请人: 百度在线网络技术(北京)有限公司
CPC分类号: G10L15/22 , G10L15/16 , G10L15/1815 , G10L25/09 , G10L25/21 , G10L25/24 , G10L25/30 , G10L25/51 , G10L25/63 , G10L2015/223 , G10L2015/227
摘要: 本发明实施例公开了一种车载语音指令识别方法和装置。所述方法包括:获取用户输入的语音指令;根据预先训练的深层神经网络DNN模型确定用户的基本信息;根据所述用户的基本信息对语音指令进行内容识别,并根据识别的内容以及用户输入所述语音指令的场景页面上下文确定至少一个用户可能意图;根据所述DNN模型确定用户可能意图的置信度;根据所述置信度从所述用户可能意图中确定用户真实意图;根据所述用户真实意图执行对应的动作。本发明实施例提供的车载语音指令识别方法和装置能够有效的提高语音指令的正确识别率。
-
公开(公告)号:CN104966517A
公开(公告)日:2015-10-07
申请号:CN201510295355.2
申请日:2015-06-02
申请人: 华为技术有限公司
IPC分类号: G10L21/0208 , G10L21/0232 , G10L25/30
CPC分类号: G10L21/0208 , G10L21/0232 , G10L25/30
摘要: 本发明实施例公开了一种音频信号增强方法和装置,该方法可包括:解码输入的音频信号的比特流,获取所述音频信号的待增强帧的谱包络参数;使用预先为所述音频信号中包含的噪声类型设置的神经网络对所述音频信号的待增强帧的谱包络参数进行增强处理,以获取所述待增强帧的谱包络参数的纯净估计值;对所述纯净估计值进行量化,得到所述待增强帧的谱包络参数的纯净估计值的量化索引,并将所述量化索引替换掉所述待增强帧的谱包络参数对应的比特。本发明实施例可以降低音频信号的增强过程中计算复杂度和附加时延。
-
公开(公告)号:CN104835507A
公开(公告)日:2015-08-12
申请号:CN201510142265.X
申请日:2015-03-30
申请人: 渤海大学
CPC分类号: G10L25/63 , G06K9/6202 , G06K9/6212 , G10L15/063 , G10L15/16 , G10L25/30 , G10L25/45
摘要: 本发明公开了一种串并结合的多模式情感信息融合与识别方法,属于情感识别技术领域。主要包括:情感信号获取;情感信号预处理;情感特征参数提取;特征参数融合与识别;本发明首先将提取的语音信号和面部表情信号特征参数进行融合,获得串行特征向量集,然后通过有放回的抽样获得M个并行的训练样本集,并利用Adaboost算法训练获得各子分类器。再采用双误差异性选择策略来度量两两分类器之间的差异性,最后运用多数投票原则进行投票,得到最终识别结果,实现对高兴、愤怒、惊奇、悲伤和恐惧五种人类基本情感进行识别。该方法充分发挥了决策层融合与特征层融合的优点,使整个情感信息的融合过程更加接近人类情感识别,从而提高了情感识别的准确性。
-
公开(公告)号:CN104080024A
公开(公告)日:2014-10-01
申请号:CN201310100422.1
申请日:2013-03-26
申请人: 杜比实验室特许公司
CPC分类号: H03G7/002 , G10L21/0364 , G10L25/30 , G10L25/51 , H03G3/3089 , H03G3/32 , H03G5/165 , H03G7/007 , H04M7/006 , H04M2203/305
摘要: 公开了音量校平器控制器和控制方法。在一个实施方式中,音量校平器控制器包括:音频内容分类器,用于实时地识别音频信号的内容类型;以及调整单元,用于基于所识别的内容类型来以连续的方式调整音量校平器。调整单元被配置成使音量校平器的动态增益与该音频信号的信息性内容类型正相关,并且使音量校平器的动态增益与该音频信号的干扰性内容类型负相关。
-
公开(公告)号:CN109524027A
公开(公告)日:2019-03-26
申请号:CN201811512431.0
申请日:2018-12-11
申请人: 平安科技(深圳)有限公司
CPC分类号: G10L25/78 , G10L25/30 , G10L25/63 , G10L2025/783
摘要: 本发明实施例公开了一种语音处理方法、装置、计算机设备及存储介质,包括下述步骤:通过快捷界面获取语音信息;查找语音信息中音量低于预设音量阈值的声音空白区,其中,声音空白区的时长大于预设的第一时间阈值;对语音信息进行去空白处理以剪切掉语音信息中的声音空白区,以生成目标语音信息。本发明实施例通过对用户在快捷界面中输入的语音信息进行自然语言处理,包括查找出该语音信息中的音量低于预设音量阈值且时长大于第一时间阈值的声音空白区,并对该语音信息进行去空白处理以生成目标语音信息,使得目标语音信息的声音连贯不间断,减少播放目标语音信息的时间并提高获取目标语音信息中消息内容的效率。
-
公开(公告)号:CN109473105A
公开(公告)日:2019-03-15
申请号:CN201811261457.2
申请日:2018-10-26
申请人: 平安科技(深圳)有限公司
CPC分类号: G10L17/005 , G10L17/04 , G10L25/24 , G10L25/30 , G10L25/51
摘要: 本申请揭示了一种与文本无关的声纹验证方法、装置和计算机设备,其中方法包括:截取待验证的语音中低于指定频率的第一语音,并利用梅尔倒谱系数提取所述第一语音的频谱特征;通过预设的基于深度神经网络训练的声纹特征提取模型提取所述频谱特征的第一声纹特征;在预设的声纹数据库中查找与所述第一声纹特征匹配的第二声纹特征;若查找到与所述第一声纹特征匹配的第二声纹特征,则判定所述待验证的语音验证通过。本申请利用基于深度神经网络训练的声纹特征提取模型来提取待验证语音的声纹特征,具有更快的提取效率,节约系统的内存和显存等,上述声纹特征提取模型可以不间断的自我学习,其提取声纹特征的准确性会保持一定的准确性。
-
-
-
-
-
-
-
-
-