-
公开(公告)号:CN109741731B
公开(公告)日:2020-12-29
申请号:CN201910015434.1
申请日:2019-01-08
Applicant: 国家计算机网络与信息安全管理中心 , 清华大学
Abstract: 本发明提供一种语种训练数据获得方法及装置,用以解决相关技术中语种训练数据质量较低的问题。该方法包括:训练用于识别各种语种的语种识别模型;使用各语种识别模型识别数据集中的第二音频数据,获得与各语种识别模型对应的得分;确定第二音频数据对应的识别语种;计算数据集中各条第二音频数据的得分信息熵;将所述数据集中,得分信息熵满足第一预设条件且实际语种与识别语种一致的第二音频数据的集合作为训练数据集,训练数据集中的第二音频数据用于训练所述语种识别模型,返回执行所述使用训练数据训练用于识别语种的各语种识别模型的步骤,直至获得的所述训练数据集中的音频数据的数量满足第二预设条件。本发明提高了语种训练数据的质量。
-
公开(公告)号:CN113205801B
公开(公告)日:2024-03-19
申请号:CN202110498059.8
申请日:2021-05-08
Applicant: 国家计算机网络与信息安全管理中心 , 清华大学
Abstract: 本申请涉及一种恶意语音样本的确定方法、装置、计算机设备和存储介质。该方法包括:获取初始语音样本集;根据预设的多种恶意类别对初始语音样本集进行分类,得到多种恶意类别中每种恶意类别对应的语音样本子集;根据每种恶意类别对应的语音样本子集中的语音样本信息,计算每种恶意类别对应的语音样本子集的恶意度;将恶意度满足预设恶意度条件的恶意类别对应的语音样本子集中的语音样本,确定为恶意语音样本。本方法基于语音样本子集的恶意类别以及恶意度可自动确定恶意语音样本,有利于提高恶意语音样本的确定效率。
-
公开(公告)号:CN113052270B
公开(公告)日:2024-12-24
申请号:CN202110503779.9
申请日:2021-05-10
Applicant: 清华大学 , 国家计算机网络与信息安全管理中心
IPC: G06F18/21 , G06F18/241 , G06F18/22
Abstract: 本申请涉及一种分类精度评价方法、装置、计算机设备和存储介质。所述方法包括:获取有害语音样本集;将有害语音样本集中的每个有害语音样本输入待评价的有害语音分类模型中进行分类,得到预测类别标签;在预设的分类层级中,确定与预测类别标签和有害语音样本的样本类别标签对应的目标分类;根据目标分类计算待评价的有害语音分类模型的分类精确程度。本方案中,对有害语音样本进行了多层次的分类(即分类层级),然后在分类层级中确定预测类别标签和样本类别标签共同所属的目标分类,目标分类可以反映预测类别标签和样本类别标签的匹配度,进而根据目标分类确定分类模型的分类精确程度,能够有效的提高分类模型评价的准确度。
-
公开(公告)号:CN113205801A
公开(公告)日:2021-08-03
申请号:CN202110498059.8
申请日:2021-05-08
Applicant: 国家计算机网络与信息安全管理中心 , 清华大学
Abstract: 本申请涉及一种恶意语音样本的确定方法、装置、计算机设备和存储介质。该方法包括:获取初始语音样本集;根据预设的多种恶意类别对初始语音样本集进行分类,得到多种恶意类别中每种恶意类别对应的语音样本子集;根据每种恶意类别对应的语音样本子集中的语音样本信息,计算每种恶意类别对应的语音样本子集的恶意度;将恶意度满足预设恶意度条件的恶意类别对应的语音样本子集中的语音样本,确定为恶意语音样本。本方法基于语音样本子集的恶意类别以及恶意度可自动确定恶意语音样本,有利于提高恶意语音样本的确定效率。
-
公开(公告)号:CN108664622A
公开(公告)日:2018-10-16
申请号:CN201810455198.0
申请日:2018-05-14
Applicant: 国家计算机网络与信息安全管理中心 , 清华大学
IPC: G06F17/30
Abstract: 本发明公开了一种基于二级倒排表的树状音频特征索引库建立方法,所述音频特征索引库建立方法在数字集成电路芯片中进行以下步骤:步骤1:对音频数据库中的所有特征分段进行粗量化;步骤2:对步骤1中的粗量化残差进行二级粗量化;步骤3:对粗量化残差进行乘积矢量量化;步骤4:插入倒排表。
-
公开(公告)号:CN113052270A
公开(公告)日:2021-06-29
申请号:CN202110503779.9
申请日:2021-05-10
Applicant: 清华大学 , 国家计算机网络与信息安全管理中心
Abstract: 本申请涉及一种分类精度评价方法、装置、计算机设备和存储介质。所述方法包括:获取有害语音样本集;将有害语音样本集中的每个有害语音样本输入待评价的有害语音分类模型中进行分类,得到预测类别标签;在预设的分类层级中,确定与预测类别标签和有害语音样本的样本类别标签对应的目标分类;根据目标分类计算待评价的有害语音分类模型的分类精确程度。本方案中,对有害语音样本进行了多层次的分类(即分类层级),然后在分类层级中确定预测类别标签和样本类别标签共同所属的目标分类,目标分类可以反映预测类别标签和样本类别标签的匹配度,进而根据目标分类确定分类模型的分类精确程度,能够有效的提高分类模型评价的准确度。
-
公开(公告)号:CN109741731A
公开(公告)日:2019-05-10
申请号:CN201910015434.1
申请日:2019-01-08
Applicant: 国家计算机网络与信息安全管理中心 , 清华大学
Abstract: 本发明提供一种语种训练数据获得方法及装置,用以解决相关技术中语种训练数据质量较低的问题。该方法包括:训练用于识别各种语种的语种识别模型;使用各语种识别模型识别数据集中的第二音频数据,获得与各语种识别模型对应的得分;确定第二音频数据对应的识别语种;计算数据集中各条第二音频数据的得分信息熵;将所述数据集中,得分信息熵满足第一预设条件且实际语种与识别语种一致的第二音频数据的集合作为训练数据集,训练数据集中的第二音频数据用于训练所述语种识别模型,返回执行所述使用训练数据训练用于识别语种的各语种识别模型的步骤,直至获得的所述训练数据集中的音频数据的数量满足第二预设条件。本发明提高了语种训练数据的质量。
-
公开(公告)号:CN117826981A
公开(公告)日:2024-04-05
申请号:CN202211214691.6
申请日:2022-09-30
IPC: G06F3/01 , G06V10/764 , G06V10/774 , G06V10/82 , G06N3/0464 , G06N3/048 , G06N3/08
Abstract: 本申请实施例提供一种样本数据的标注方法、装置、设备及存储介质,涉及工智能技术领域,能够对多模态的样本数据进行标注,从而提高神经网络模型识别情绪的准确性。具体方案为:获取用于表征用户情绪的多个待标注数据;每个待标注数据包括用户的生理数据和非生理数据,每个待标注数据的数据分类结果包括用于表征用户受场景影响引起情绪变化的体验类型,或者,用于表征用户表达情绪的表达类型;根据预设的目标分类模型,确定每个待标注数据的数据分类结果;基于每个待标注数据以及每个待标注数据的数据分类结果,确定多个目标情绪;基于多个目标情绪,对多个待标注数据进行标注,得到目标样本数据集。本申请实施例用于情绪识别场景。
-
公开(公告)号:CN111209429B
公开(公告)日:2020-07-28
申请号:CN202010309303.7
申请日:2020-04-20
Applicant: 北京海天瑞声科技股份有限公司 , 清华大学
IPC: G06F16/65
Abstract: 本公开是关于一种用于度量语音数据库覆盖性的无监督模型训练方法,所述方法包括:获取训练数据,所述训练数据为语音;确定语音数据库覆盖性的一个或多个评价因素;基于训练数据是否可通过参数调整控制,划分评价因素为可调因素或不可调因素;确定划分后的每个评价因素对应的聚类算法;通过每个评价因素对应的聚类算法分别将训练数据分类,得到多个子类;根据每个所述评价因素的多个子类,训练评价模型。该方法可以根据用户需要设定不同的评价要素度量相应的语音数据库,通过对评价因素的区分,有针对性地抽取不同的特征、选用合适的算法,同时可以利用无监督数据进行模型训练,降低了数据标注所引入的成本。
-
公开(公告)号:CN110738987A
公开(公告)日:2020-01-31
申请号:CN201910992852.6
申请日:2019-10-18
Applicant: 清华大学
Inventor: 张卫强
Abstract: 本发明属于语音信号处理技术领域,尤其涉及一种基于统一表征的关键词检索方法,包括:采用大量语音数据训练带有瓶颈层的神经网络语音自编码器得到声学表征矢量提取器;采用大量文本数据训练带有瓶颈层的神经网络文本自编码器得到语言表征矢量提取器;采用大量语音数据片段和对应的文本数据片段分别提取对应的声学表征矢量和语言表征矢量用于训练统一矢量提取器;通过语言表征矢量提取器和统一矢量提取器得到文本关键词的查询矢量;通过声学表征矢量提取器和统一矢量提取器得到语音关键词的查询矢量;对于待查询语音,分段依次通过声学表征矢量提取器和统一矢量提取器得到多个索引矢量并计算与查询矢量的距离,若小于预设门限即认为命中查询词。
-
-
-
-
-
-
-
-
-