-
公开(公告)号:CN101512521A
公开(公告)日:2009-08-19
申请号:CN200780020395.X
申请日:2007-06-01
申请人: 特尔科迪亚技术股份有限公司
CPC分类号: G06F17/30746 , G06F17/30681
摘要: 通过寻找和检索在概念级别与查询项相关的语音文档——即便这些语音文档并不包含发音的(或文本的)查询项——来达成索引、搜索、以及检索语音文档(包括但不限于录音书籍、音频广播、录音会话)的内容。使用基于概念的跨媒体信息检索。从训练文档集构造项-音素/文档矩阵。文档随后被添加到从训练数据构造成的矩阵中。使用奇异值分解来从该项-音素/文档矩阵计算矢量空间。结果是较低维的数值空间,其中项-音素和文档矢量在概念上作为最近邻居来相关。查询引擎计算该查询矢量与该空间中的所有其他矢量之间的余弦值,并且返回具有最高余弦值的那些项-音素和/或文档的列表。