-
公开(公告)号:CN110148417B
公开(公告)日:2021-03-23
申请号:CN201910439064.4
申请日:2019-05-24
Applicant: 哈尔滨工业大学
Abstract: 基于总变化空间与分类器联合优化的说话人身份识别方法,它属于说话人识别技术领域。本发明解决了目前的总变化空间估计方法对说话人身份识别的等错误率高的问题。本发明首先求得训练集均值超矢量在初始总变化空间上的表示;然后对该表示进行长度规整,并输入分类器PLDA;接着在分类器PLDA的监督下,更新分类器的参数与总变化空间的参数,重复上述步骤,直至达到设置的最大迭代次数,获得最终的分类器参数与总变化空间参数;测试时,利用测试语音的均值超矢量和目标说话人的均值超矢量,计算其在总变化空间上的表示,然后对该表示进行长度规整,并计算其在分类器上的联合概率密度作为最终分类的依据。本发明可以应用于说话人识别技术领域。
-
公开(公告)号:CN110164418A
公开(公告)日:2019-08-23
申请号:CN201910621276.4
申请日:2019-07-10
Applicant: 哈尔滨工业大学
Abstract: 基于卷积网格长短时记忆递归神经网络的自动语音识别加速方法,属于语音信号处理技术领域。本发明是为了解决目前的加速方法大多是在牺牲识别性能的条件下进行加速导致其不能满足实际任务的需要问题。本发明的方法针对频谱或者频谱的多通道频谱子带进行时频块切分,然后进行局部特征提取,将卷积神经网络与Grid-LSTM相结合,弥补了Grid-LSTM在大频域步长情况下的精度损失。主要用于自动语音识别。
-
公开(公告)号:CN110148428A
公开(公告)日:2019-08-20
申请号:CN201910447562.3
申请日:2019-05-27
Applicant: 哈尔滨工业大学
Abstract: 一种基于子空间表示学习的声学事件识别方法,涉及声音信号处理技术领域,为解决现有技术在AER任务中,语义特征提取时不能兼顾原始信号本质内容和时序结构的问题,包括:步骤1、信号预处理,步骤2、帧级特征提取,步骤3、子声学事件特征提取,步骤4、子声学事件特征的时序扩展,步骤5、子声学事件特征间的整体语义特征提取,步骤6、声学事件的识别,本发明提取语义特征时,能够兼顾原始信号的整体内容信息和全局时序结构。
-
公开(公告)号:CN101833986B
公开(公告)日:2011-10-05
申请号:CN201010177959.4
申请日:2010-05-20
Applicant: 哈尔滨工业大学 , 国家计算机网络与信息安全管理中心
Abstract: 一种三级音频索引的创建方法及音频检索方法,属于多媒体领域,为了解决现有技术针对大规模数据库和网络环境下的音频样例检索缺少快速、有效的索引机制的问题。本发明创建一种三级索引结构:对n维的音频特征向量降维,生成第一级索引;将第一级索引按单元长度截成一系列片段,计算其向量模,排序后作为第二级索引;计算片段的类别分,分组后作为第三级索引。基于三级索引的检索方法为:首先,计算出查询音频的一级索引值、片段向量模和类别分,然后依次利用第三级和第二级索引缩小查询范围,最后利用第一级索引计算查询音频与索引音频片段的相似度,将满足检出阈值的数据作为结果返回。
-
公开(公告)号:CN101834801A
公开(公告)日:2010-09-15
申请号:CN201010177960.7
申请日:2010-05-20
Applicant: 哈尔滨工业大学 , 国家计算机网络与信息安全管理中心
Abstract: 基于缓冲池的数据缓存排序在线处理方法,属于互联网领域,为了解决目前常见的多线程下载软件对于下载数据乱序和重复的节目批量并发下载,不能实现基于内存的下载数据在线缓存、排序和去重,因而无法支持实时在线的识别、检索等处理的问题。本发明将所有缓冲区组织成缓冲区池,采用多个缓冲区缓存同一节目的下载数据。在接收节目数据包后,先查询节目的下载日志,若无新数据则丢弃不做任何处理,否则:首先选择合适的节目已有缓冲区接收数据,若无合适缓冲区且允许的情况下,申请新缓冲区接收数据;然后更新下载日志;最后调用分析处理模块将该缓冲区中排好的数据取走处理。重复上述过程,直至节目下载完成,将节目分配的缓冲区释放到缓冲区池中。?
-
-
-
-