-
公开(公告)号:CN101221759B
公开(公告)日:2015-04-22
申请号:CN200710196697.4
申请日:2002-03-22
申请人: 高通股份有限公司
CPC分类号: G10L15/142 , G10L15/07 , G10L15/10 , G10L15/12 , G10L15/144 , G10L15/32
摘要: 本发明涉及使用隐含语者自适应的语音识别系统。具体地,揭示了一种语音识别(VR)系统,该系统采用语者无关(SI)(230和232)和语者特定(SD)(234)的声学模型的组合。至少一个SI声学模型(230和232)用于和至少一个SD声学模型(234)的组合,以提供至少与纯SI声学模型的语音识别性能相同的水平。所揭示的SI/SD VR系统可连续使用非监督式的训练,来更新在一个和多个SD声学模型(234)中的声学模板。混合的VR系统随后使用与至少一个SI声学模型(230和232)组合的经更新的SD声学模型(234),在VR测试过程中提供改良的VR性能。
-
公开(公告)号:CN102812644A
公开(公告)日:2012-12-05
申请号:CN201180013922.0
申请日:2011-03-15
申请人: 高通股份有限公司
IPC分类号: H03M7/30
CPC分类号: G06F7/02 , G06F2207/02 , H03M7/30 , H03M7/3059 , H03M7/3062
摘要: 本发明的某些方面涉及用于量化信号和重构信号,和/或对数据编码或解码以存储或传输。信号的点可以确定为局部极值或该信号的绝对上升大于门限的点。将这些点的级宽和值量化,并且在传输量化之前可以将某些量化丢弃。接收到之后,可以用迭代过程根据量化来重新构造信号。
-
公开(公告)号:CN1653519B
公开(公告)日:2012-04-04
申请号:CN03810691.4
申请日:2003-03-19
申请人: 高通股份有限公司
摘要: 通过分析冗余特征对数字化语音信号进行处理以提供更稳健的话音识别的方法。对源语音信号应用初级变换,从中提取初级特征。对所述源语音信号或对所提取的初级特征应用至少一个次级变换的每一个,以得到至少一组和所述初级特征统计上相关的次级特征。然后至少应用一个预先确定的函数对所述初级特征和所述次级特征进行联合。通过对这一联合和预先确定的话音识别模板进行模式匹配产生识别答案。
-
公开(公告)号:CN102165699A
公开(公告)日:2011-08-24
申请号:CN200980137794.3
申请日:2009-09-25
申请人: 高通股份有限公司
CPC分类号: H03M7/50 , G10L19/0204 , G10L19/0212 , G10L19/032
摘要: 一种用于通过对音频信号的谱域或时域表示应用对数压缩扩展以提供编码的音频信号来进行音频信号处理的方法和装置,所述编码的音频信号在接收到时被解码。音频信号的频域表示或时域表示是通过将音频信号分成特定频带来计算的,每个频带具有系数。对每个系数使用不同的压缩比执行对数压缩扩展以提供编码的信号。接收到编码的信号后,执行逆对数压缩扩展和时域或时间标度重建以提供音频信号。
-
公开(公告)号:CN101578842A
公开(公告)日:2009-11-11
申请号:CN200880002133.5
申请日:2008-01-10
申请人: 高通股份有限公司
发明人: H·加鲁达德里 , C·顺达拉曼 , G·维杰 , N·B·斯里尼瓦桑莫特 , P·萨格东
CPC分类号: H04L65/4092 , H04L47/10 , H04L65/1059 , H04L65/602 , H04L65/80 , H04W72/08
摘要: 本发明描述了有助于多媒体电话的技术。在一个例子中,一种用于多媒体数据传输的方法包括:确定与从第一接入终端到网络的多媒体数据传输关联的第一吞吐量水平;根据从第二接入终端通过所述网络到所述第一接入终端的反馈,确定与从所述网络到所述第二接入终端的多媒体数据传输关联的第二吞吐量水平;确定与所述多媒体数据的视频单元的传输关联的预算;根据所述预算以及所述第一吞吐量水平和第二吞吐量水平,对所述多媒体数据的视频单元进行编码。
-
公开(公告)号:CN100527224C
公开(公告)日:2009-08-12
申请号:CN02804816.4
申请日:2002-01-10
申请人: 高通股份有限公司
发明人: H·加鲁达德里
CPC分类号: G10L15/06
摘要: 一种通过改进语音识别(VR)模板的存储而改进语音识别的方法和系统。改进了的存储意味着可在存储器中存储更多VR模型。存储在存储器中的VR模型越多,VR系统更稳健,从而VR系统更精确。有损压缩技术用于压缩VR模型。在一个实施例中,A-律压缩和A-律扩展用于压缩和扩展VR模型。在另一实施例中,μ-律压缩和μ-律扩展用于压缩并扩展VR模型。VR模型在训练过程期间被压缩,且它们在语音识别期间被扩展。
-
公开(公告)号:CN101221759A
公开(公告)日:2008-07-16
申请号:CN200710196697.4
申请日:2002-03-22
申请人: 高通股份有限公司
CPC分类号: G10L15/142 , G10L15/07 , G10L15/10 , G10L15/12 , G10L15/144 , G10L15/32
摘要: 本发明涉及使用隐含语者自适应的语音识别系统。具体地,揭示了一种语音识别(VR)系统,该系统采用语者无关(SI)(230和232)和语者特定(SD)(234)的声学模型的组合。至少一个SI声学模型(230和232)用于和至少一个SD声学模型(234)的组合,以提供至少与纯SI声学模型的语音识别性能相同的水平。所揭示的SI/SD VR系统可连续使用非监督式的训练,来更新在一个和多个SD声学模型(234)中的声学模板。混合的VR系统随后使用与至少一个SI声学模型(230和232)组合的经更新的SD声学模型(234),在VR测试过程中提供改良的VR性能。
-
公开(公告)号:CN1238836C
公开(公告)日:2006-01-25
申请号:CN01815363.1
申请日:2001-09-05
申请人: 高通股份有限公司
IPC分类号: G10L15/26
CPC分类号: G10L15/32 , G10L15/12 , G10L15/142
摘要: 一种组合语音识别引擎(104,108,112,114)并用映射函数求解单个语音识别引擎(104,106,112,114)间差异的方法和系统。将说话者独立型语音识别引擎104和说话者依赖型语音识别引擎106组合在一起。将隐马尔可夫模型(HMM)引擎(108,114)和动态时间偏差(DTW)引擎(104,106,112)组合在一起。
-
公开(公告)号:CN1653519A
公开(公告)日:2005-08-10
申请号:CN03810691.4
申请日:2003-03-19
申请人: 高通股份有限公司
摘要: 通过分析冗余特征对数字化语音信号进行处理以提供更稳健的话音识别的方法。对源语音信号应用初级变换,从中提取初级特征。对所述源语音信号或对所提取的初级特征应用至少一个次级变换的每一个,以得到至少一组和所述初级特征统计上相关的次级特征。然后至少应用一个预先确定的函数对所述初级特征和所述次级特征进行联合。通过对这一联合和预先确定的话音识别模板进行模式匹配产生识别答案。
-
-
-
-
-
-
-
-