普通话评测方法及装置
    61.
    发明公开

    公开(公告)号:CN111128238A

    公开(公告)日:2020-05-08

    申请号:CN201911406413.9

    申请日:2019-12-31

    发明人: 牛传迎 郭伟

    IPC分类号: G10L25/60 G10L25/90 G09B5/04

    摘要: 本发明是关于普通话评测方法及装置。该方法包括:接收待测试发音;基于发音空间的第一混淆网络解码图,对所述待测试发音进行普通话评测,获得所述待测试发音的第一评测结果;基于发音空间的第二混淆网络解码图,对所述待测试发音进行普通话评测,获得所述待测试发音的第二评测结果;根据所述第一评测结果和所述第二评测结果,确定所述待测试发音的最终普通话评测结果。通过本发明的技术方案,可综合第一评测结果和第二评测结果对待测试发音进行最终评估,以确定最终普通话评测结果,从而通过多次评估提高普通话测试的准确率。

    一种声音处理的方法、装置、设备和介质

    公开(公告)号:CN110910895A

    公开(公告)日:2020-03-24

    申请号:CN201910806475.2

    申请日:2019-08-29

    发明人: 王伟航

    摘要: 本申请属于人工智能中的语音处理技术领域,公开了一种声音处理的方法、装置、设备和介质,本申请公开的一种声音处理的方法包括,提取采集的语音数据的音色特征以及音调特征,并根据获取的各乐器的音色特征,确定与语音数据的音色特征最相近的音色特征对应的乐器,获得该乐器按照该音调特征弹奏的音乐和对应音调特征设置的色彩特征,以及根据弹奏的音乐和色彩特征生成语音转换内容。这样,将用户的语音数据转换为匹配的乐器弹奏的相应音乐以及色彩特征,从而可以通过音乐和色彩呈现用户语音,提高了用户声音的辨识度。

    心理声学模型计算方法和装置

    公开(公告)号:CN105869652B

    公开(公告)日:2020-02-18

    申请号:CN201510031871.4

    申请日:2015-01-21

    发明人: 张勇 刘轶

    摘要: 本发明提供了一种带噪环境下的心理声学模型计算方法,该方法包括:获取带噪语音信号,将所述带噪语音信号转换到频域,得到所述带噪语音信号频谱;对所述带噪语音信号频谱进行干净语音估计,得到估计的干净语音频谱;获取扩展函数,根据所述干净语音频谱和扩展函数计算得到临界频段扩展能量;根据所述干净语音频谱计算得到临界频段的平均不可预测度,根据所述平均不可预测度计算得到临界频段的音调系数;获取绝对掩蔽阈值,根据所述临界频段扩展能量、音调系数、绝对掩蔽阈值计算得到掩蔽阈值,在带噪环境下能够可靠的估计输入的带噪语音信号的掩蔽阈值,此外,还提供了一种心理声学模型计算装置。

    一种汉语电子喉语音转换方法

    公开(公告)号:CN106448673B

    公开(公告)日:2019-12-10

    申请号:CN201610830172.0

    申请日:2016-09-18

    摘要: 本发明公开一种汉语电子喉语音转换方法,具体过程为:训练阶段:从语音材料中获取梅尔倒谱参数MCC,基频F0和频谱SP参数,训练MCC和SP的0阶段参数的GMM模型,训练动态F0的GMM模型,训练MCC的GMM模型,训练SP的NMF字典;转换阶段:根据以上得到GMM模型、NMF字典根据需求将新的源语音转换成目标语音。本发明是针对在提高EL自然度的同时减少对语音可懂性的影响而提出的。为了提高自然度,使用GMM来估算得到动态F0。接着为了提高音频可懂度,使用NMF来估算高质量的频谱用于声音重建。同时为了抑制EL设备的振动噪声,本发明还对语音特征的第0阶参数同样使用GMM的方法。最后采取了客观和主观评价来说明本混合系统在转换语音自然度和可懂性上比传统方法取得更好的结果。

    基于蚁群优化的基音频率检测方法

    公开(公告)号:CN107039051B

    公开(公告)日:2019-11-26

    申请号:CN201610077857.2

    申请日:2016-02-03

    发明人: 张小恒

    IPC分类号: G10L25/90 G10L25/18

    摘要: 本发明提供一种极低信噪比环境下的基音频率检测方法。其特征在于利用PEFAC算法提取语音帧信号的特征波形,然后利用最佳优化因子对特征波形进行优化从而构造新的特征波形,最后找出特征波形最大峰值所对应的频率值作为基音频率的估计值。其中最佳优化因子依靠蚁群优化(ACO)算法搜索得到。

    语音指令执行功能的唤醒方法、装置及电子设备

    公开(公告)号:CN110473542A

    公开(公告)日:2019-11-19

    申请号:CN201910843399.2

    申请日:2019-09-06

    发明人: 杜国威

    IPC分类号: G10L15/22 G10L15/20 G10L25/90

    摘要: 本发明公开了一种语音指令执行功能的唤醒方法,包括:获取声源对象发出的语音信息;使用模型对语音信息进行分析,在确定语音信息中具有唤醒词的情况下,根据语音信息的音量变化趋势是否为预设变化趋势,确定声源对象发出语音信息的行为是否为唤醒行为;当声源对象发出语音信息的行为是唤醒行为时,唤醒电子设备的语音指令执行功能。本发明还公开了一种语音指令执行功能的唤醒装置及电子设备。

    一种面向音频事件检测的双层基音特征提取方法

    公开(公告)号:CN106205638B

    公开(公告)日:2019-11-08

    申请号:CN201610430195.2

    申请日:2016-06-16

    申请人: 清华大学

    发明人: 王健飞 张卫强

    IPC分类号: G10L25/90 G10L25/15

    摘要: 本发明公开了属于音频事件检测技术领域的一种面向音频事件检测的双层基音特征提取方法。包括采集音频信号,将音频信号格式标准化:声音信号预处理和PITCH特征后处理,对只保留形状特征的PITCH,进行离散傅里叶变换DFT,得到长时域信号PITCH特征的频域特征,并取前面数个有效频域值;目前,通过对该双层基音特征的处理,可以有效提升对长时域周期性音频事件的检测。

    线性预测分析装置、方法以及记录介质

    公开(公告)号:CN106415718B

    公开(公告)日:2019-10-25

    申请号:CN201580005196.6

    申请日:2015-01-20

    IPC分类号: G10L25/12 G10L25/06 G10L25/90

    摘要: 自相关计算部(21)根据输入信号计算自相关RO(i)。预测系数计算部(23)利用将系数wO(i)和自相关RO(i)进行乘法的值即变形自相关R'O(i)而进行线性预测分析。在此,包含如下情况:对至少一部分各阶数i,与各阶数i对应的系数wO(i)处于随着与当前或过去的帧中的输入信号的基音增益有正相关关系的值的增加而单调递减的关系。

    线性预测分析装置、方法、程序以及记录介质

    公开(公告)号:CN110299146A

    公开(公告)日:2019-10-01

    申请号:CN201910603208.5

    申请日:2015-01-20

    摘要: 自相关计算部(21)根据输入信号来计算自相关RO(i)。预测系数计算部(23)使用将系数wO(i)和自相关RO(i)相乘后的变形自相关R’O(i)来进行线性预测分析。在此,设为包含对至少一部分的各次数i,与各次数i对应的系数wO(i)随着与当前或过去的帧中的输入信号的基本频率处于负相关关系的值的增加而单调增加的情况、和与当前或过去的帧中的基音增益处于正相关关系的值的增加而单调减少的关系的情况。

    音乐检测与识别方法
    70.
    发明授权

    公开(公告)号:CN106157973B

    公开(公告)日:2019-09-13

    申请号:CN201610583217.9

    申请日:2016-07-22

    IPC分类号: G10L25/51 G10L25/90 G09B15/00

    摘要: 本发明公开了一种音乐的检测与识别方法,包括以下步骤:1、对音乐信号进行采集并对相应的乐谱信息进行提取;2、结合乐谱信息设计低通滤波器,通过半波整流后低通滤波得到音乐信号的包络,从而实现音符初步切分;3、对切分的每一段音乐分高低通道与乐谱匹配,信号经过低通滤波后采用谐波峰值排序比较法,经过高通滤波后采用基频峰值排序比较法,综合两通道的匹配结果得到第段音乐信号与乐谱键号矩阵第行的匹配结果;4、经过多次比较最终得到钢琴演奏者的每个音乐事件的演奏正误结果。本发明的音乐检测与识别方法能够实现对演奏音乐中各个音乐事件的演奏正误判断,有利于提高音乐教学的质量。