-
公开(公告)号:CN101464907A
公开(公告)日:2009-06-24
申请号:CN200910076589.2
申请日:2009-01-09
Applicant: 中国科学院计算技术研究所
IPC: G06F17/30
Abstract: 本发明提供一种文本维度压缩及尺度调整方法,包括下列步骤:1)用特征空间的特征向量表示文本xj;2)根据训练集中的样本x计算文本xj待投影的k个方向,其中k为文本xj所属语料的类别个数;3)将文本xj投影到该k个方向,表示为(xj,1N,…,xj,iN,…,xj,kN),其中1≤i≤k;4)根据训练集中的样本x计算每个类Ci在对应方向上投影的尺度相关统计量;5)根据所述(xj,1N,…,xj,iN,…,xj,kN)和所述尺度相关统计量,计算所述文本xj的新的表示(xj,1R,…,xj,iR,…,xj,kR)。根据本发明的文本维度压缩及尺度调整方法对文本空间进行处理,不仅降低了语料的维度,还使语料的分布更为合理,该方法的应用使文本分类的精度有效提高。
-
公开(公告)号:CN101464907B
公开(公告)日:2011-05-11
申请号:CN200910076589.2
申请日:2009-01-09
Applicant: 中国科学院计算技术研究所
IPC: G06F17/30
Abstract: 本发明提供一种文本维度压缩及尺度调整方法,包括下列步骤:1)用特征空间的特征向量表示文本xj;2)根据训练集中的样本x计算文本xj待投影的k个方向,其中k为文本xj所属语料的类别个数;3)将文本xj投影到该k个方向,表示为(xj,1N,...,xj,iN,...,xj,kN),其中1≤i≤k;4)根据训练集中的样本x计算每个类Ci在对应方向上投影的尺度相关统计量;5)根据所述(xj,1N,...,xj,iN,...,xj,kN)和所述尺度相关统计量,计算所述文本xj的新的表示(xj,1R,...,xj,iR,...,xj,kR)。根据本发明的文本维度压缩及尺度调整方法对文本空间进行处理,不仅降低了语料的维度,还使语料的分布更为合理,该方法的应用使文本分类的精度有效提高。
-