-
公开(公告)号:CN106100771A
公开(公告)日:2016-11-09
申请号:CN201610429658.3
申请日:2016-06-16
申请人: 苏州科达科技股份有限公司
IPC分类号: H04B17/364 , G10L25/24 , G10L25/51
CPC分类号: H04B17/364 , G10L25/24 , G10L25/51
摘要: 本发明公开了一种双向时延检测方法及装置,该方法包括:对采集信号分帧;计算第一信号从第一预定信号帧开始的预设帧数的第一信号特征参数与第二信号从第二预定信号帧开始的预设帧数的第二信号特征参数的差方和;第一预定信号帧为第一信号在预定时刻的信号帧,第二预定信号帧为第二信号在预定时刻对应的信号帧之后的第M个信号帧;依次循环从第一预定信号帧的下一帧开始,计算第一信号特征参数和第二信号特征参数的差方和,循环次数至少为最大正时延帧数与最大负时延帧数之和;获取差方和中的最小值及其对应的起始帧的序号;根据起始帧的序号计算时延值。可以在设备使用过程中实时检测时延现象;同时既可以实现正时延的检测,也可以实现负时延的检测。
-
公开(公告)号:CN105845152A
公开(公告)日:2016-08-10
申请号:CN201610169131.1
申请日:2016-03-23
申请人: 成都普创通信技术股份有限公司
摘要: 本发明公开了一种音频信号回声检测方法,对音频信号的功率倒谱分段计算峰度数值,并与预设的阈值相比较,进而根据比较结果判断音频信号中是否存在回声,从而在不需要参考信号的基础上,实现在音频信号传输过程中实时检测是否存在回声,检测准确性高,客服了传统的检测方法受制于参考源,检测的准确性很难保证的问题。
-
公开(公告)号:CN105845126A
公开(公告)日:2016-08-10
申请号:CN201610345908.5
申请日:2016-05-23
申请人: 渤海大学
IPC分类号: G10L15/00 , G10L15/02 , G10L21/06 , G10L25/24 , G10L25/45 , G10L25/48 , G10L25/57 , H04N21/435 , H04N21/439
CPC分类号: G10L21/06 , G10L15/005 , G10L15/02 , G10L25/24 , G10L25/45 , G10L25/48 , G10L25/57 , H04N21/435 , H04N21/4394
摘要: 本发明公开了一种英语有声影像资料自动加注英语字幕的方法,包括如下步骤:步骤一、获取有声影像中语音信号x(n)及该语音在有声影像中所对应的时间;步骤二、对原始信号x(n)进行预加重和加汉明窗;步骤三、进行离散傅里叶变换得到频谱;步骤四、将频谱系数用三角滤波器进行滤波处理,得到每个滤波器输出的对数能量;步骤五、进行离散余弦变换,得到MFCC参数;步骤六、提取MFCC特征向量;步骤七、将MFCC特征向量与数据库中存储的单词的特征向量进行匹配,以得到相匹配的单词文字;步骤八、将相匹配的单词文字在所对应的时间上显示到声影像资料中。
-
公开(公告)号:CN103824557B
公开(公告)日:2016-06-15
申请号:CN201410055255.8
申请日:2014-02-19
申请人: 清华大学
摘要: 一种具有自定义功能的音频检测分类方法,对音频数据进行音频激活检测,通过将部分原始训练集首先按照类型分为若干类训练集,针对每类训练集进行特征提取,并训练与其对应的高斯混合模型及其参数,得到一个全局高斯混合模型;进一步将其他训练集作为新的训练样本,对全局高斯混合模型进行参数更新得到一个局部模型;最后对测试集提取特征,输入局部模型分类器,并对结果进行平滑和输出,本发明通过全局及局部高斯混合模型的训练,可以使高斯混合模型的类别和参数随着样本的增加而更新,与分类器的结合进一步提高了系统性能,最终实现音频检测分类,可广泛应用于涉及音频检测分类的说话人识别、语音识别、人机交互等多种机器学习领域。
-
公开(公告)号:CN105489221A
公开(公告)日:2016-04-13
申请号:CN201510876187.6
申请日:2015-12-02
申请人: 北京云知声信息技术有限公司
发明人: 欧光欣
摘要: 本发明公开了一种语音识别方法及装置,用于实现在确保语音识别的准确率的同时,能够减轻服务器的负载压力。所述方法包括:接收当前登录的用户输入的语音信息;根据所述用户的当前登录帐号,获取与所述用户相对应的参数配置文件,所述参数配置文件包括个性化声学特征参数和个性化语言特征参数;根据所述参数配置文件和预设通用语音模型,生成所述用户的个性化语音模型;根据所述个性化语音模型,识别所述语音信息。该技术方案不仅提高语音识别的准确率,且使得服务器端无需存储每个用户的个性化语音模型,而只需存储每个用户的参数配置文件和一个通用语音模型即可,从而减轻了服务器的负载压力。
-
公开(公告)号:CN105138617A
公开(公告)日:2015-12-09
申请号:CN201510490065.3
申请日:2015-08-07
申请人: 中国人民大学
CPC分类号: G06F16/683 , G06F16/433 , G10L25/18 , G10L25/24
摘要: 本发明涉及一种音乐自动定位和注解系统及方法,其特征在于:它包括数据预处理模块、音乐定位模块、音乐注解模块、结果展示模块和音乐信息数据库;数据预处理模块从待分类多媒体数据或带标签的音乐数据中提取音频片段的MFCC特征发送到音乐定位模块;音乐定位模块根据音频MFCC特征得到所有音乐片段的起点和长度信息后发送到音乐注解模块;音乐注解模块从音乐信息数据库中找到与音乐定位模块所得到的音乐片段相似度最高的音乐数据和其相关注解信息,并发送到结果展示模块;结果展示模块通过用户交互界面将接收到的注解信息呈现给用户;用户对得到的注解信息进行有效性验证,并通过用户交互界面将验证结果反馈到音乐信息数据库。本发明可以广泛应用于音乐自动定位和注解领域中。
-
公开(公告)号:CN103236260B
公开(公告)日:2015-08-12
申请号:CN201310109044.3
申请日:2013-03-29
申请人: 京东方科技集团股份有限公司 , 北京京东方显示技术有限公司
发明人: 王健铭
摘要: 本发明提供一种语音识别系统,包括:存储单元,用于存储至少一个用户的语音模型;语音采集及预处理单元,用于采集待识别语音信号,对所述待识别语音信号进行格式转换及编码;特征提取单元,用于从编码后的所述待识别语音信号中提取语音特征参数;模式匹配单元,用于将所提取的所述语音特征参数与至少一个所述语音模型进行匹配,确定所述待识别语音信号所属的用户。该系统从语音的产生原理开始分析语音的特性,并使用MFCC参数,建立说话人的语音特征模型,实现说话人的特征识别算法,能够达到提高说话人检测可靠性的目的,使得最终能够在电子产品上实现说话人识别的功能。
-
公开(公告)号:CN102483916B
公开(公告)日:2014-08-06
申请号:CN201080038121.5
申请日:2010-07-12
申请人: 国际商业机器公司
摘要: 提供从声音信号中提取由于噪音、回音而更强的特征量的技术。一种声音特征量提取装置,包括:差分算出单元,输入帧化的声音信号的频谱,对于各帧,算出前后的帧间的频谱的差分(线性区域的差分),作为差量频谱;和正规化处理单元,对于各帧,通过将差量频谱除以平均频谱的函数而正规化,将正规化处理单元的输出设为差量特征量。
-
公开(公告)号:CN103236260A
公开(公告)日:2013-08-07
申请号:CN201310109044.3
申请日:2013-03-29
申请人: 京东方科技集团股份有限公司 , 北京京东方显示技术有限公司
发明人: 王健铭
摘要: 本发明提供一种语音识别系统,包括:存储单元,用于存储至少一个用户的语音模型;语音采集及预处理单元,用于采集待识别语音信号,对所述待识别语音信号进行格式转换及编码;特征提取单元,用于从编码后的所述待识别语音信号中提取语音特征参数;模式匹配单元,用于将所提取的所述语音特征参数与至少一个所述语音模型进行匹配,确定所述待识别语音信号所属的用户。该系统从语音的产生原理开始分析语音的特性,并使用MFCC参数,建立说话人的语音特征模型,实现说话人的特征识别算法,能够达到提高说话人检测可靠性的目的,使得最终能够在电子产品上实现说话人识别的功能。
-
公开(公告)号:CN102483916A
公开(公告)日:2012-05-30
申请号:CN201080038121.5
申请日:2010-07-12
申请人: 国际商业机器公司
摘要: 提供从声音信号中提取由于噪音、回音而更强的特征量的技术。一种声音特征量提取装置,包括:差分算出单元,输入帧化的声音信号的频谱,对于各帧,算出前后的帧间的频谱的差分(线性区域的差分),作为差量频谱;和正规化处理单元,对于各帧,通过将差量频谱除以平均频谱的函数而正规化,将正规化处理单元的输出设为差量特征量。
-
-
-
-
-
-
-
-
-