-
公开(公告)号:CN101834801B
公开(公告)日:2012-11-21
申请号:CN201010177960.7
申请日:2010-05-20
Applicant: 哈尔滨工业大学 , 国家计算机网络与信息安全管理中心
Abstract: 基于缓冲池的数据缓存排序在线处理方法,属于互联网领域,为了解决目前常见的多线程下载软件对于下载数据乱序和重复的节目批量并发下载,不能实现基于内存的下载数据在线缓存、排序和去重,因而无法支持实时在线的识别、检索等处理的问题。本发明将所有缓冲区组织成缓冲区池,采用多个缓冲区缓存同一节目的下载数据。在接收节目数据包后,先查询节目的下载日志,若无新数据则丢弃不做任何处理,否则:首先选择合适的节目已有缓冲区接收数据,若无合适缓冲区且允许的情况下,申请新缓冲区接收数据;然后更新下载日志;最后调用分析处理模块将该缓冲区中排好的数据取走处理。重复上述过程,直至节目下载完成,将节目分配的缓冲区释放到缓冲区池中。
-
公开(公告)号:CN101833986A
公开(公告)日:2010-09-15
申请号:CN201010177959.4
申请日:2010-05-20
Applicant: 哈尔滨工业大学 , 国家计算机网络与信息安全管理中心
IPC: G11B27/10
Abstract: 一种三级音频索引的创建方法及音频检索方法,属于多媒体领域,为了解决现有技术针对大规模数据库和网络环境下的音频样例检索缺少快速、有效的索引机制的问题。本发明创建一种三级索引结构:对n维的音频特征向量降维,生成第一级索引;将第一级索引按单元长度截成一系列片段,计算其向量模,排序后作为第二级索引;计算片段的类别分,分组后作为第三级索引。基于三级索引的检索方法为:首先,计算出查询音频的一级索引值、片段向量模和类别分,然后依次利用第三级和第二级索引缩小查询范围,最后利用第一级索引计算查询音频与索引音频片段的相似度,将满足检出阈值的数据作为结果返回。?
-
公开(公告)号:CN101833986B
公开(公告)日:2011-10-05
申请号:CN201010177959.4
申请日:2010-05-20
Applicant: 哈尔滨工业大学 , 国家计算机网络与信息安全管理中心
Abstract: 一种三级音频索引的创建方法及音频检索方法,属于多媒体领域,为了解决现有技术针对大规模数据库和网络环境下的音频样例检索缺少快速、有效的索引机制的问题。本发明创建一种三级索引结构:对n维的音频特征向量降维,生成第一级索引;将第一级索引按单元长度截成一系列片段,计算其向量模,排序后作为第二级索引;计算片段的类别分,分组后作为第三级索引。基于三级索引的检索方法为:首先,计算出查询音频的一级索引值、片段向量模和类别分,然后依次利用第三级和第二级索引缩小查询范围,最后利用第一级索引计算查询音频与索引音频片段的相似度,将满足检出阈值的数据作为结果返回。
-
公开(公告)号:CN101834801A
公开(公告)日:2010-09-15
申请号:CN201010177960.7
申请日:2010-05-20
Applicant: 哈尔滨工业大学 , 国家计算机网络与信息安全管理中心
Abstract: 基于缓冲池的数据缓存排序在线处理方法,属于互联网领域,为了解决目前常见的多线程下载软件对于下载数据乱序和重复的节目批量并发下载,不能实现基于内存的下载数据在线缓存、排序和去重,因而无法支持实时在线的识别、检索等处理的问题。本发明将所有缓冲区组织成缓冲区池,采用多个缓冲区缓存同一节目的下载数据。在接收节目数据包后,先查询节目的下载日志,若无新数据则丢弃不做任何处理,否则:首先选择合适的节目已有缓冲区接收数据,若无合适缓冲区且允许的情况下,申请新缓冲区接收数据;然后更新下载日志;最后调用分析处理模块将该缓冲区中排好的数据取走处理。重复上述过程,直至节目下载完成,将节目分配的缓冲区释放到缓冲区池中。?
-
公开(公告)号:CN110782903A
公开(公告)日:2020-02-11
申请号:CN201911011046.2
申请日:2019-10-23
Applicant: 国家计算机网络与信息安全管理中心
Abstract: 本发明公开了一种说话人识别方法及可读存储介质,涉及语音识别技术领域,所述方法包括如下步骤:获取语音信息,并提取所述语音信息的均值超矢量;训练语音测试模型,并基于所述语音测试模型对提取的所述均值超矢量进行判定以完成说话人的识别。本发明方法通过训练语音测试模型,并基于所述语音测试模型对提取的所述均值超矢量进行判定以完成说话人的识别,由此提升了说话人识别系统的性能。
-
公开(公告)号:CN110689875A
公开(公告)日:2020-01-14
申请号:CN201911029387.2
申请日:2019-10-28
Applicant: 国家计算机网络与信息安全管理中心
Abstract: 本发明公开了一种语种识别方法、装置及可读存储介质,所述方法包括如下步骤:获取训练语音数据,并根据所述训练语音数据构建识别模型;获取待检测的语音数据,并提取所述待检测的语音数据的特征信息;通过识别模型对所述特征信息进行识别;在连续给定数量的特征信息均识别为同种语言的情况下,则将连续段的特征信息判定为识别种类的语音。本发明方法在采用所构建的识别模型对所述特征信息进行识别,由此解决了现有的识别结果会受到说话人本身音色特性的影响、通用背景等模型中没有考虑信道影响导致识别不准确的问题。
-
公开(公告)号:CN113380232B
公开(公告)日:2022-11-15
申请号:CN202110661855.9
申请日:2021-06-15
Applicant: 哈尔滨工业大学
Abstract: 基于约束的结构化稀疏注意力机制的端到端语音识别方法及存储介质,属于语音识别技术领域。本发明是为了解决现有的基于Softmax注意力机制的语音识别方法解码过程中存在大量预测无关信息而导致严重干扰解码器识别过程的问题。本发明首先首先对原始信号分别进行采样、量化、帧级特征提取、高层声学表示提取、匹配分计算;然后,通过匹配分排序、匹配分阈值计算、注意力得分归一化、瞥向量生成,来获得其每一解码时刻的瞥向量;最后,利用解码器进行识别,并用以训练识别器,得到语音识别模型。本发明通过产生均匀、连续且稀疏的注意力得分向量,以降低瞥向量中预测无关信息占比,进而达到提升识别性能的目的。本发明主要用于语音的识别。
-
公开(公告)号:CN113362855B
公开(公告)日:2022-06-21
申请号:CN202110679471.X
申请日:2021-06-18
Applicant: 哈尔滨工业大学
Abstract: 一种基于卷积神经网络关系建模的环境声音分类方法,本发明涉及基于卷积神经网络关系建模的环境声音分类方法。本发明的目的是为了解决现有方法对环境声音分类准确性低的问题。过程为:一、对采集的环境声音的音频提取对数声谱图,分为训练集和测试集;二、构建环境声音分类模型;三、将训练集输入环境声音分类模型进行训练,得到预训练好的环境声音分类模型;四、将测试集输入预训练好的环境声音分类模型,若准确率达到要求,得到训练好的环境声音分类模型,执行五;否则,重复执行三和四,直至得到训练好的环境声音分类模型;五、将待识别的声音信号输入训练好的环境声音分类模型,得到待识别的声音信号的类别。本发明用于环境声音分类领域。
-
公开(公告)号:CN113362855A
公开(公告)日:2021-09-07
申请号:CN202110679471.X
申请日:2021-06-18
Applicant: 哈尔滨工业大学
Abstract: 一种基于卷积神经网络关系建模的环境声音分类方法,本发明涉及基于卷积神经网络关系建模的环境声音分类方法。本发明的目的是为了解决现有方法对环境声音分类准确性低的问题。过程为:一、对采集的环境声音的音频提取对数声谱图,分为训练集和测试集;二、构建环境声音分类模型;三、将训练集输入环境声音分类模型进行训练,得到预训练好的环境声音分类模型;四、将测试集输入预训练好的环境声音分类模型,若准确率达到要求,得到训练好的环境声音分类模型,执行五;否则,重复执行三和四,直至得到训练好的环境声音分类模型;五、将待识别的声音信号输入训练好的环境声音分类模型,得到待识别的声音信号的类别。本发明用于环境声音分类领域。
-
公开(公告)号:CN104361887A
公开(公告)日:2015-02-18
申请号:CN201410668501.7
申请日:2014-11-20
Applicant: 哈尔滨工业大学
Abstract: 行车噪声环境下的快速声学事件检测系统,涉及快速声学事件检测系统。本发明为了解决现有的声学事件检测系统在行车环境下系统识别率较低的问题。行车噪声环境下的快速声学事件检测系统包括:声学事件模型训练模块、风噪模型训练模块和识别检测模块;所述的识别检测模块包括声音采集和预处理子模块、去噪子模块、AWeighting加权子模块、特征提取子模块及SVM模型识别子模块;该系统对于行车环境下不可避免的风噪具有较好的抗噪能力,在各种风噪条件下检测性能具有鲁棒性;在相同的风噪条件下,本发明比现有的声学事件检测系统的识别率提高20%-30%。本发明适用于快速声学事件的检测。
-
-
-
-
-
-
-
-
-