-
公开(公告)号:CN104575519B
公开(公告)日:2018-12-25
申请号:CN201310488434.6
申请日:2013-10-17
Applicant: 清华大学 , 深圳市车音网科技有限公司
Abstract: 本发明公开了一种特征提取方法、装置及重音检测的方法、装置,涉及语音检测技术。为解决现有技术在重音检测上准确率低的问题。技术方案包括:依据预设的音素与声学特征发音属性的对应关系,通过第一分类器进行输出所述声学特征发音属性的第一帧级特征向量;依据预设的音素与元辅音发音属性的对应关系,通过第二分类器将所述声学特征发音属性的第一帧级特征向量进行输出所述元辅音发音属性的第二帧级特征向量;将所述声学特征发音属性的第一帧级特征向量或所述元辅音发音属性的第二帧级特征向量进行映射所述帧级对应的音节级发音特征向量。该方案可以应用语音检测过程中。
-
公开(公告)号:CN104575519A
公开(公告)日:2015-04-29
申请号:CN201310488434.6
申请日:2013-10-17
Applicant: 清华大学 , 深圳市车音网科技有限公司
Abstract: 本发明公开了一种特征提取方法、装置及重音检测的方法、装置,涉及语音检测技术。为解决现有技术在重音检测上准确率低的问题。技术方案包括:依据预设的音素与声学特征发音属性的对应关系,通过第一分类器进行输出所述声学特征发音属性的第一帧级特征向量;依据预设的音素与元辅音发音属性的对应关系,通过第二分类器将所述声学特征发音属性的第一帧级特征向量进行输出所述元辅音发音属性的第二帧级特征向量;将所述声学特征发音属性的第一帧级特征向量或所述元辅音发音属性的第二帧级特征向量进行映射所述帧级对应的音节级发音特征向量。该方案可以应用语音检测过程中。
-
公开(公告)号:CN104575518A
公开(公告)日:2015-04-29
申请号:CN201310487945.6
申请日:2013-10-17
Applicant: 清华大学 , 深圳市车音网科技有限公司
IPC: G10L25/03
Abstract: 本发明公开一种韵律事件检测方法和装置,涉及语音技术。为解决现有技术韵律事件检测的准确率较低的问题而发明。包括:接收到待检测语音时,获取预先训练一组受训语音得到的判别式模型M1、M2…Mn;以音节为单位划分待检测语音,得到至少一个待检测样本;提取每个待检测样本对应的待检测声学特征;使用判别式模型M1根据对应的待检测声学特征对每个待检测样本进行初步分类,得到每个待检测样本属于各个类别的第一概率;根据对应的联合检测特征,依次使用判别式模型M2…Mn分别对每个待检测样本进行分类,得到每个待检测样本属于各个类别的第二概率…第N概率;根据第N概率确定韵律检测结果。可以应用在自然语音的检测中。
-
公开(公告)号:CN104376842A
公开(公告)日:2015-02-25
申请号:CN201310349690.7
申请日:2013-08-12
Applicant: 清华大学 , 深圳市车音网科技有限公司
Abstract: 本发明公开了一种神经网络语言模型的训练方法、装置以及语音识别方法,涉及语音识别技术。为解决现有技术在降低神经网络语言模型计算复杂度时,神经网络语言模型识别正确率降低的问题。提供的技术方案包括:在对神经网络语言模型的参数进行训练的过程中,采用输出层的归一化因子对目标代价函数进行修正,获取修正后的目标代价函数;根据修正后的目标代价函数对神经网络语言模型的参数进行更新,获取神经网络语言模型训练后的目标参数,其中,目标参数使得训练后的神经网络语言模型中归一化因子为常数。该方案可以应用在神经网络语音识别过程中。
-
公开(公告)号:CN104575518B
公开(公告)日:2018-10-02
申请号:CN201310487945.6
申请日:2013-10-17
Applicant: 清华大学 , 深圳市车音网科技有限公司
IPC: G10L25/03
Abstract: 本发明公开一种韵律事件检测方法和装置,涉及语音技术。为解决现有技术韵律事件检测的准确率较低的问题而发明。包括:接收到待检测语音时,获取预先训练一组受训语音得到的判别式模型M1、M2…Mn;以音节为单位划分待检测语音,得到至少一个待检测样本;提取每个待检测样本对应的待检测声学特征;使用判别式模型M1根据对应的待检测声学特征对每个待检测样本进行初步分类,得到每个待检测样本属于各个类别的第一概率;根据对应的联合检测特征,依次使用判别式模型M2…Mn分别对每个待检测样本进行分类,得到每个待检测样本属于各个类别的第二概率…第N概率;根据第N概率确定韵律检测结果。可以应用在自然语音的检测中。
-
公开(公告)号:CN119295751A
公开(公告)日:2025-01-10
申请号:CN202411415480.8
申请日:2024-10-11
Applicant: 嘉兴恒创电力设计研究院有限公司 , 清华大学
IPC: G06V10/26 , G06V20/70 , G06V20/10 , G06V10/40 , G06V10/80 , G06V10/82 , G06N3/0464 , G06V10/764
Abstract: 本申请涉及一种遥感图像的语义分割方法、装置、电子设备及存储介质。包括:对已获取的遥感图像数据集进行预处理,并利用预设的模型框架对预处理后的遥感图像数据集进行特征提取和融合,得到每个像素的融合后的特征,其中,预设的模型框架包括Mamba2编码器和CNN解码器;利用预设的分类网络对每个像素的融合后的特征进行分类,确定每个像素所对应的遥感图像的语义类别。由此,通过结合先进的模型Mamba2模型和卷积神经网络CNN,能够有效处理和分割各种尺度和复杂度的遥感图像,解决了现有技术在处理大尺寸图像时计算成本过高、处理复杂的依赖关系时受限于训练数据的不足和泛化能力的问题,从而提供更加准确的地物分类和语义信息。
-
公开(公告)号:CN119168183A
公开(公告)日:2024-12-20
申请号:CN202411415482.7
申请日:2024-10-11
Applicant: 嘉兴恒创电力设计研究院有限公司 , 清华大学
IPC: G06Q10/047 , G06Q30/0201 , G06F16/29 , G06Q10/0639 , G06V10/764 , G06N5/01 , G06N20/20 , G06N3/006 , G06N3/126 , G06Q50/06 , G06F17/16
Abstract: 本申请涉及输电线工程技术领域,特别涉及一种输电线选线方法、装置、设备及介质,其中,方法包括:获取目标区域的多源地理信息;对多源地理信息进行分类处理得到目标分类结果,根据目标分类结果计算目标区域中每条输电线路径的路径地理综合成本值权重;将每条路径的路径地理综合成本值权重输入选线模型,选线模型输出目标区域的目标输电线路径,其中,选线模型基于目标灰狼算法进行选线,目标灰狼算法为引入遗传算法的交叉和变异操作的灰狼算法。由此,解决了现有技术中输电线规划成本高、效率低、精度差且主观性强等问题。
-
公开(公告)号:CN108694950B
公开(公告)日:2021-10-01
申请号:CN201810465602.2
申请日:2018-05-16
Applicant: 清华大学
Abstract: 本发明提出一种基于深度混合模型的说话人确认方法,属于声纹识别、模式识别与机器学习技术领域。该方法首先获取目标说话人的训练语音数据并进行预处理,得到训练语音数据的梅尔倒谱特征集;对梅尔倒谱特征集建立第0层高斯混合模型并求导,得到一阶导数集;然后依次建立第一层高斯混合模型、第二层高斯混合模型,直至建立建立第S层高斯混合模型,将所有高斯混合模型组合得到说话人的深度混合模型;然后获取测试语音数据并提取梅尔倒谱特征集,建立测试语音数据的深度混合模型;计算两个模型的相似度:若相似度小于等于阈值,则测试语音数据属于目标说话人。本发明不仅考虑数据自身分布,还考虑数据的导数分布,提升说话人确认的准确性。
-
公开(公告)号:CN107481723A
公开(公告)日:2017-12-15
申请号:CN201710751356.2
申请日:2017-08-28
Applicant: 清华大学
Abstract: 本发明提出一种用于声纹识别的信道匹配方法及其装置,属于语音识别和语音通信领域。本发明方法首先采集语音数据,根据要模拟的通信模式对语音数据进行语音编码得到压缩语音数据;随后根据相应通信模式下信道模拟的误码率对压缩语音数据进行误码操作,得到信道模拟语音数据;最后对该语音数据进行语音解码操作,得到相应通信模式下的语音。本发明装置包括:语音采集及读取模块、语音编码模块、信道误码模拟模块、语音解码模块和数据存储模块。本发明可模拟固话、VOIP网络电话、微信电话、QQ电话、2G、3G、4G等语音通信过程,从而得到与测试语音信道条件相同的训练语音,有效解决了信道失配问题,适用于声纹识别的应用需求。
-
公开(公告)号:CN106898355A
公开(公告)日:2017-06-27
申请号:CN201710031899.7
申请日:2017-01-17
Applicant: 清华大学
Abstract: 本发明提出一种基于二次建模的说话人识别方法,属于声纹识别、模式识别与机器学习领域。该方法在模型训练阶段,获取待识别说话人的训练语音数据并预处理;根据训练语音数据训练得到第一个DNN模型;利用第一个DNN模型,对训练语音数据进行识别,提取易混语音数据;根据易混语音数据训练得到第二个DNN模型;在说话人识别阶段,获取待识别语音数据并预处理;利用第一个DNN模型对待识别语音数据进行识别,若识别概率大于设定阈值,则得到说话人识别结果;否则通过第二个DNN模型对待识别语音数据进行第二次识别,得到说话人识别结果。本发明通过建立两个DNN模型,同时考虑说话人宏观特征和微观特征,有效提高说话人识别的准确率。
-
-
-
-
-
-
-
-
-