基于自适应算法的非对称语料库条件下的语音转换方法

    公开(公告)号:CN103280224B

    公开(公告)日:2015-09-16

    申请号:CN201310146293.X

    申请日:2013-04-24

    Applicant: 东南大学

    Abstract: 本发明公开了一种基于自适应算法的非对称语料库条件下的语音转换方法,首先运用MAP算法利用少量训练语句从参考说话人模型中分别训练得到源说话人和目标说话人的模型。然后,利用自适应说话人模型中的参数,分别提出了高斯归一化和均值转换的方法。并且为了进一步提高转换效果,进而提出了将高斯归一化方法和均值转换融合的方法。同时,由于训练语句有限,必然影响自适应模型的准确性,本发明提出了KL散度的方法在转换时对说话人模型进行优化,主客观实验结果表明:无论是频谱失真度,还是转换语音的质量以及与目标语音的相似度。本发明提出的方法都获得了和基于对称语料库条件下的经典GMM方法可比拟的效果。

    基于JND和AR模型的感知视频压缩方法

    公开(公告)号:CN101841723B

    公开(公告)日:2011-08-03

    申请号:CN201010182160.4

    申请日:2010-05-25

    Applicant: 东南大学

    Abstract: 本发明公布了一种基于可观测的衰减(Just Noticeable Distortion,JND)和自回归(Auto-regressive,AR)模型的感知视频压缩方法,包括了纹理区域的分割算法和基于自回归模型的合成算法。我们首先用基于JND的分割算法将视频中的纹理区域分割出来,接着用自回归模型合成纹理区域。本发明提出了空时JND模型,准确有效地进行了纹理区域的分割。设计了AR模型,通过简单计算,在保证视频质量的同时,大大提高了实时性。开发了结合人眼视觉特性的视频压缩技术,进一步提高了视频的压缩效率,减少了比特率。

    一种转子碰摩声发射源定位方法

    公开(公告)号:CN101477194B

    公开(公告)日:2011-07-06

    申请号:CN200910025081.X

    申请日:2009-02-17

    Applicant: 东南大学

    Abstract: 本发明公布了一种转子碰摩声发射源定位方法。本发明通过转子碰摩试验台获得声发射信号,建立基于能量衰减的声发射信号的传播模型,并且将定位问题转化为系统估计问题,利用自适应次梯度投影方法进行系统估计,从而估计出声发射源的位置。本发明具有计算处理简单,收敛性能好,定位精度高等优点,从而有效地应用于声发射源定位。

    基于模态波和高斯混合模型的转子碰摩声发射识别方法

    公开(公告)号:CN101566519A

    公开(公告)日:2009-10-28

    申请号:CN200910027182.0

    申请日:2009-05-22

    Applicant: 东南大学

    Abstract: 本发明公布了一种基于模态波和高斯混合模型的转子碰摩声发射信号识别方法,本发明所述方法如下:采用碰摩声发射试验装置获得声发射信号,并对其进行短时分帧;对每个短时帧,分别提取倒谱系数,并计算分形维,将两者共同组成识别碰摩声发射信号的混合特征参数;确定碰摩声发射信号中的模态波种类;对于每一种类型的模态波分别建立一个相对应的高斯混合模型,并将碰摩声发射信号中的每个模态波单独用高斯混合模型进行训练;在识别时对各模态波模型的输出似然比按一定的权值比例合并得到总似然比;最后针对总似然比进行判决。本发明能较准确地识别碰摩声发射信号。该方法不仅能够应用于突发型声发射信号的识别,而且可以应用于连续型声发射信号的识别。

    一种跨语言的语音情感识别方法

    公开(公告)号:CN103578481B

    公开(公告)日:2016-04-27

    申请号:CN201210256381.0

    申请日:2012-07-24

    Abstract: 本发明公开了一种跨语言的语音情感识别方法,属于语音信号处理领域。本方法首先建立了一个汉语语音库和德语语音库,然后对其中的语音进行特征提取,计算每个特征分别关于两个语音库的Fisher判别系数,并采用加权融合技术来获得每个特征的跨语言Fisher判别系数,并排序选出情感区分度最好的一些特征。在训练和识别中采用高斯混合模型来分别进行参数估计和似然值的计算。本发明可以有效地解决现有的语音情感识别方法只针对某种特定语言的局限性,所提出的基于加权融合的Fisher判别系数对于跨语言情感识别中的特征选择也具有很好的效果。

    一种跨语言的语音情感识别方法

    公开(公告)号:CN103578481A

    公开(公告)日:2014-02-12

    申请号:CN201210256381.0

    申请日:2012-07-24

    Abstract: 本发明公开了一种跨语言的语音情感识别方法,属于语音信号处理领域。本方法首先建立了一个汉语语音库和德语语音库,然后对其中的语音进行特征提取,计算每个特征分别关于两个语音库的Fisher判别系数,并采用加权融合技术来获得每个特征的跨语言Fisher判别系数,并排序选出情感区分度最好的一些特征。在训练和识别中采用高斯混合模型来分别进行参数估计和似然值的计算。本发明可以有效地解决现有的语音情感识别方法只针对某种特定语言的局限性,所提出的基于加权融合的Fisher判别系数对于跨语言情感识别中的特征选择也具有很好的效果。

    基于特征空间自适应投影的语音情感识别方法

    公开(公告)号:CN102779510B

    公开(公告)日:2013-12-18

    申请号:CN201210250571.1

    申请日:2012-07-19

    Applicant: 东南大学

    Abstract: 本发明公开了一种基于特征空间自适应投影的语音情感识别方法,属于语音信号处理领域。本发明首先对语音进行特征提取,并且计算每个特征的模糊熵,当该特征的模糊熵小于预先设定好的阈值时,则认为该特征与一般模型的差异较大,应该进行投影压缩,即在特征矢量中删除此特征。在训练的参数迭代估计中对权重进行强化,从而训练出对于每一类情感所对应的高斯混合模型;最后采用计算高斯混合模型似然值的方式进行识别。采用本发明的方法可以有效地去除对识别效果不佳的特征,从而提高语音情感识别率。

    基于自适应算法的非对称语料库条件下的语音转换方法

    公开(公告)号:CN103280224A

    公开(公告)日:2013-09-04

    申请号:CN201310146293.X

    申请日:2013-04-24

    Applicant: 东南大学

    Abstract: 本发明公开了一种基于自适应算法的非对称语料库条件下的语音转换方法,首先运用MAP算法利用少量训练语句从参考说话人模型中分别训练得到源说话人和目标说话人的模型。然后,利用自适应说话人模型中的参数,分别提出了高斯归一化和均值转换的方法。并且为了进一步提高转换效果,进而提出了将高斯归一化方法和均值转换融合的方法。同时,由于训练语句有限,必然影响自适应模型的准确性,本发明提出了KL散度的方法在转换时对说话人模型进行优化,主客观实验结果表明:无论是频谱失真度,还是转换语音的质量以及与目标语音的相似度。本发明提出的方法都获得了和基于对称语料库条件下的经典GMM方法可比拟的效果。

Patent Agency Ranking