一种基于潜在语义分析的迁移学习方法

    公开(公告)号:CN103176961B

    公开(公告)日:2017-02-08

    申请号:CN201310069560.8

    申请日:2013-03-05

    IPC分类号: G06F17/27

    摘要: 本发明的目的在于提供一种基于潜在语义分析的迁移学习方法,包括以下步骤:对训练数据做去停用词、词干化处理,分别计算源领域与目标领域词汇权重,得到词汇-文本矩阵M,对矩阵M进行奇异值分解,将M中词汇与文本映射到低维潜在语义空间,去除源领域中同义词噪音影响,调整矩阵M结构,从源领域中找出与目标领域文本关联度较大的词汇作为迁移词,再对矩阵M结构进行调整,分析调整后的矩阵M中目标领域词汇,得到目标领域数据新的特征表示,在训数据集中得到最终分类器,对测试数据集S进行分类。

    一种基于半监督聚类的迁移学习方法

    公开(公告)号:CN103020122B

    公开(公告)日:2015-09-30

    申请号:CN201210464867.3

    申请日:2012-11-16

    IPC分类号: G06F17/30

    摘要: 本发明提供的是一种基于半监督聚类的迁移学习方法。包括计算目标数据与辅助数据各类中数据的相似度、平均相似度;由平均相似度得到目标数据与类标签的一个相似度权重向量,取向量中权重最大的为目标数据的标签;以目标数据为质心,进行K-均值聚类,聚类成簇,每簇中以簇中数据占所属类中总数据比例最大者的标签为簇标签;将再分类结果与预分类结果做对比;在最终形成的目标数据相似度权重向量中,挑选权重最大的数据标签作为目标数据数据标签,从而形成最终分类器。本发明提供一种将分类方法、技术从一个领域迁移到另一个领域的提高分类结果精确度的一种基于半监督聚类的迁移学习方法。

    一种长文本到短文本的迁移学习方法

    公开(公告)号:CN103324708A

    公开(公告)日:2013-09-25

    申请号:CN201310241428.0

    申请日:2013-06-18

    IPC分类号: G06F17/30

    摘要: 本发明涉及一种长文本到短文本的迁移学习方法,其特征在于:步骤1:根据目标领域短文本中提取的标签,通过搜索引擎获得源领域数据,提取源领域的种子特征集;步骤2:根据目标领域短文本的标签集和源领域的种子特征集,构建社交媒体无向图,从无向图中提取包含所有目标领域标签集和种子特征集节点的子图;步骤3:基于拉普拉斯特征映射算法,获得源领域数据新的特征表示;步骤:4:根据源领域数据新的特征表示,对源领域数据进行分类。

    一种基于潜在语义分析的迁移学习方法

    公开(公告)号:CN103176961A

    公开(公告)日:2013-06-26

    申请号:CN201310069560.8

    申请日:2013-03-05

    IPC分类号: G06F17/27

    摘要: 本发明的目的在于提供一种基于潜在语义分析的迁移学习方法,包括以下步骤:对训练数据做去停用词、词干化处理,分别计算源领域与目标领域词汇权重,得到词汇-文本矩阵M,对矩阵M进行奇异值分解,将M中词汇与文本映射到低维潜在语义空间,去除源领域中同义词噪音影响,调整矩阵M结构,从源领域中找出与目标领域文本关联度较大的词汇作为迁移词,再对矩阵M结构进行调整,分析调整后的矩阵M中目标领域词汇,得到目标领域数据新的特征表示,在训数据集中得到最终分类器,对测试数据集S进行分类。

    一种长文本到短文本的迁移学习方法

    公开(公告)号:CN103324708B

    公开(公告)日:2016-06-29

    申请号:CN201310241428.0

    申请日:2013-06-18

    IPC分类号: G06F17/30

    摘要: 本发明涉及一种长文本到短文本的迁移学习方法,其特征在于:步骤1:根据目标领域短文本中提取的标签,通过搜索引擎获得源领域数据,提取源领域的种子特征集;步骤2:根据目标领域短文本的标签集和源领域的种子特征集,构建社交媒体无向图,从无向图中提取包含所有目标领域标签集和种子特征集节点的子图;步骤3:基于拉普拉斯特征映射算法,获得源领域数据新的特征表示;步骤:4:根据源领域数据新的特征表示,对源领域数据进行分类。

    一种基于半监督聚类的迁移学习方法

    公开(公告)号:CN103020122A

    公开(公告)日:2013-04-03

    申请号:CN201210464867.3

    申请日:2012-11-16

    IPC分类号: G06F17/30

    摘要: 本发明提供的是一种基于半监督聚类的迁移学习方法。包括计算目标数据与辅助数据各类中数据的相似度、平均相似度;由平均相似度得到目标数据与类标签的一个相似度权重向量,取向量中权重最大的为目标数据的标签;以目标数据为质心,进行K-均值聚类,聚类成簇,每簇中以簇中数据占所属类中总数据比例最大者的标签为簇标签;将再分类结果与预分类结果做对比;在最终形成的目标数据相似度权重向量中,挑选权重最大的数据标签作为目标数据数据标签,从而形成最终分类器。本发明提供一种将分类方法、技术从一个领域迁移到另一个领域的提高分类结果精确度的一种基于半监督聚类的迁移学习方法。