-
公开(公告)号:CN111382303B
公开(公告)日:2023-11-28
申请号:CN201811619718.3
申请日:2018-12-28
申请人: 中国科学院声学研究所 , 国家计算机网络与信息安全管理中心
IPC分类号: G06F16/683 , G06F16/61
摘要: 本发明涉及一种基于指纹权重的音频样例检索方法,该方法具体包括:获取待检音频的二进制音频指纹序列值,在预先建立的哈希表中进行查找;查找出对应的模板音频的二进制音频指纹序列值;计算待检音频和模板音频之间指纹序列差异数D、模板音频与待检音频之间允许指纹序列差异数的阈值Reject;如果D<Reject,则认为待检音频与模板音频相似;如果D>Reject,则认为待检音频存在错误。
-
公开(公告)号:CN113420123A
公开(公告)日:2021-09-21
申请号:CN202110705729.9
申请日:2021-06-24
申请人: 中国科学院声学研究所 , 国家计算机网络与信息安全管理中心
IPC分类号: G06F16/33 , G06F16/332 , G06K9/62 , G06N3/02
摘要: 本申请提供了一种语言模型的训练方法、NLP任务处理方法及装置,包括:获取训练样本集;训练样本集包括新任务的第一任务标签、新任务的多个第一训练文本和每个第一训练文本的第一文本标签、至少一个旧任务中每个旧任务的第二任务标签;复制语言模型得到教师语言模型,将语言模型作为学生语言模型;将第二任务标签输入至教师语言模型中,生成旧任务对应的多个第二训练文本和每个第二训练文本的第二文本标签;将第一任务标签、第二任务标签、第一训练文本和第二训练文本输入至学生语言模型中,生成第一预测文本、第一预测结果、第二预测文本和第二预测结果,对学生语言模型进行训练。根据本申请实施例,能够解决相关技术中存储资源占用大的问题。
-
公开(公告)号:CN113420121A
公开(公告)日:2021-09-21
申请号:CN202110704938.1
申请日:2021-06-24
申请人: 中国科学院声学研究所 , 国家计算机网络与信息安全管理中心
IPC分类号: G06F16/33 , G06F16/332 , G06F16/951 , G06K9/62
摘要: 本申请提供了一种文本处理模型训练方法、语音文本处理方法及装置,涉及自然语言处理技术领域。该方法包括:从互联网爬取对话文本,得到正样本;对对话文本中的语句进行变换操作,得到负样本和负样本的第一标签信息;将正样本和负样本对应输入至预先训练的第一文本处理模型中和待训练的第二文本处理模型中,生成第一文本处理模型的目标层的第一特征向量和第二文本处理模型的目标层的第二特征向量;根据第一特征向量、第二特征向量,对第二文本处理模型进行知识蒸馏,得到训练好的第二文本处理模型。根据本申请实施例,能够解决相关技术中对语音文本进行校对效率低、耗时长且计算资源占用大的问题。
-
公开(公告)号:CN109599123B
公开(公告)日:2021-02-09
申请号:CN201710911340.3
申请日:2017-09-29
申请人: 中国科学院声学研究所 , 国家计算机网络与信息安全管理中心
IPC分类号: G10L21/02 , G10L19/02 , G10L19/04 , G10L21/038
摘要: 本发明公开一种基于遗传算法优化模型参数的音频带宽扩展方法,所述方法包括:步骤1)对输入音频信号x(n)进行预处理,获得滤波信号;步骤2)对滤波信号进行调制重叠变换得到低频调制重叠变换系数;步骤3)将低频调制重叠变换系数划分子带,计算每个子带的均方根能量,得到低频频谱包络序列;步骤4)根据低频频谱包络序列,采用灰色模型GM(1,1)对音频信号的高频子带能量进行估计,得到高频频谱包络;步骤5)采用频谱复制、频谱折叠、非线性计算、综合多带激励或非线性预测方法对音频频谱细节进行扩展,得到高频频谱细节;步骤6)根据上述所得高频频谱包络和高频频谱细节恢复音频信号x(n)的高频频谱信息;步骤7)利用调制重叠反变换实现x(n)的带宽扩展。
-
公开(公告)号:CN111382303A
公开(公告)日:2020-07-07
申请号:CN201811619718.3
申请日:2018-12-28
申请人: 中国科学院声学研究所 , 国家计算机网络与信息安全管理中心
IPC分类号: G06F16/683 , G06F16/61
摘要: 本发明涉及一种基于指纹权重的音频样例检索方法,该方法具体包括:获取待检音频的二进制音频指纹序列值,在预先建立的哈希表中进行查找;查找出对应的模板音频的二进制音频指纹序列值;计算待检音频和模板音频之间指纹序列差异数D、模板音频与待检音频之间允许指纹序列差异数的阈值Reject;如果D<Reject,则认为待检音频与模板音频相似;如果D>Reject,则认为待检音频存在错误。
-
公开(公告)号:CN111382302A
公开(公告)日:2020-07-07
申请号:CN201811619717.9
申请日:2018-12-28
申请人: 中国科学院声学研究所 , 国家计算机网络与信息安全管理中心
IPC分类号: G06F16/683 , G06F16/632 , G06F16/61
摘要: 本发明涉及一种基于变速模板的音频样例检索方法,该方法具体包括:针对长度5秒以上的变速模板的待检音频拆分为多个短音频片段,获取各个短音频片段的二进制音频指纹序列值,查找预先建立的哈希表;查找出各个短音频片段的二进制音频指纹序列值对应的模板音频的音频指纹序列值;计算各个短音频片段和模板音频之间指纹序列差异数D和模板音频与短音频片段之间允许指纹序列差异数的阈值Reject;如果D<Reject,则认为短音频片段与模板音频相似;如果D>Reject,则认为短音频片段存在错误,并提取该短音频片段。
-
公开(公告)号:CN109599123A
公开(公告)日:2019-04-09
申请号:CN201710911340.3
申请日:2017-09-29
申请人: 中国科学院声学研究所 , 国家计算机网络与信息安全管理中心
IPC分类号: G10L21/02 , G10L19/02 , G10L19/04 , G10L21/038
摘要: 本发明公开一种基于遗传算法优化模型参数的音频带宽扩展方法,所述方法包括:步骤1)对输入音频信号x(n)进行预处理,获得滤波信号;步骤2)对滤波信号进行调制重叠变换得到低频调制重叠变换系数;步骤3)将低频调制重叠变换系数划分子带,计算每个子带的均方根能量,得到低频频谱包络序列;步骤4)根据低频频谱包络序列,采用灰色模型GM(1,1)对音频信号的高频子带能量进行估计,得到高频频谱包络;步骤5)采用频谱复制、频谱折叠、非线性计算、综合多带激励或非线性预测方法对音频频谱细节进行扩展,得到高频频谱细节;步骤6)根据上述所得高频频谱包络和高频频谱细节恢复音频信号x(n)的高频频谱信息;步骤7)利用调制重叠反变换实现x(n)的带宽扩展。
-
公开(公告)号:CN111382302B
公开(公告)日:2023-08-11
申请号:CN201811619717.9
申请日:2018-12-28
申请人: 中国科学院声学研究所 , 国家计算机网络与信息安全管理中心
IPC分类号: G06F16/683 , G06F16/632 , G06F16/61
摘要: 本发明涉及一种基于变速模板的音频样例检索方法,该方法具体包括:针对长度5秒以上的变速模板的待检音频拆分为多个短音频片段,获取各个短音频片段的二进制音频指纹序列值,查找预先建立的哈希表;查找出各个短音频片段的二进制音频指纹序列值对应的模板音频的音频指纹序列值;计算各个短音频片段和模板音频之间指纹序列差异数D和模板音频与短音频片段之间允许指纹序列差异数的阈值Reject;如果D<Reject,则认为短音频片段与模板音频相似;如果D>Reject,则认为短音频片段存在错误,并提取该短音频片段。
-
公开(公告)号:CN113420121B
公开(公告)日:2023-07-28
申请号:CN202110704938.1
申请日:2021-06-24
申请人: 中国科学院声学研究所 , 国家计算机网络与信息安全管理中心
IPC分类号: G06F16/33 , G06F16/332 , G06F16/951 , G06F18/214
摘要: 本申请提供了一种文本处理模型训练方法、语音文本处理方法及装置,涉及自然语言处理技术领域。该方法包括:从互联网爬取对话文本,得到正样本;对对话文本中的语句进行变换操作,得到负样本和负样本的第一标签信息;将正样本和负样本对应输入至预先训练的第一文本处理模型中和待训练的第二文本处理模型中,生成第一文本处理模型的目标层的第一特征向量和第二文本处理模型的目标层的第二特征向量;根据第一特征向量、第二特征向量,对第二文本处理模型进行知识蒸馏,得到训练好的第二文本处理模型。根据本申请实施例,能够解决相关技术中对语音文本进行校对效率低、耗时长且计算资源占用大的问题。
-
公开(公告)号:CN112712096A
公开(公告)日:2021-04-27
申请号:CN201911022350.7
申请日:2019-10-25
申请人: 中国科学院声学研究所 , 国家计算机网络与信息安全管理中心
摘要: 本发明公开了基于深度递归非负矩阵分解的音频场景分类方法及系统,该方法包括:将待分类的音频信号按照贝叶斯信息准则进行音频场景切分;将切分后的每一段音频划分为多个块,每个块包括多个音频帧;以块为单位分别输入多个预先训练好的深度递归NMF网络,得到每块音频在不同子空间中的展开特征;将不同子空间中的展开特征拼接为一个长特征向量,输入支持向量机,获得每块音频的类别判别结果;计算该段音频所有块的类别判别结果的均值,由此得到该段音频的所属类别。本发明的方法将深度NMF用于音频场景分类,通过探索相邻帧之间NMF系数的递归关系,降低模型复杂度,提高泛化能力。
-
-
-
-
-
-
-
-
-