-
公开(公告)号:CN111291835B
公开(公告)日:2023-04-07
申请号:CN202010231754.3
申请日:2020-03-27
申请人: 清华大学深圳国际研究生院
IPC分类号: G06F18/2431 , G06F18/214 , G06N20/00 , G06Q10/04
摘要: 本发明提供一种回归树预测方法、控制装置及计算机可读存储介质,方法包括如下步骤:输入训练数据集;用所述训练数据集训练回归树;判断训练得到的所述回归树的叶结点的数目是否大于3,若是,则采用詹姆斯‑斯坦因估计同时估计所有所述叶结点的预测值;若否,则采用最大似然估计独立估计每个所述叶结点的预测值;输出所述回归树及所述预测值。在所有数据集上取得比基于最大似然估计的回归树更好的平均预测性能,即平均意义上更小的均方误差;在部分数据集上取得比现有最优的回归树预测方法‑‑核回归更好的性能;在提升性能的同时,基本维持了原有基于最大似然估计预测的回归树的高效率,测试时间受数据集样本数量影响较小。
-
公开(公告)号:CN111291835A
公开(公告)日:2020-06-16
申请号:CN202010231754.3
申请日:2020-03-27
申请人: 清华大学深圳国际研究生院
摘要: 本发明提供一种回归树预测方法、控制装置及计算机可读存储介质,方法包括如下步骤:输入训练数据集;用所述训练数据集训练回归树;判断训练得到的所述回归树的叶结点的数目是否大于3,若是,则采用詹姆斯-斯坦因估计同时估计所有所述叶结点的预测值;若否,则采用最大似然估计独立估计每个所述叶结点的预测值;输出所述回归树及所述预测值。在所有数据集上取得比基于最大似然估计的回归树更好的平均预测性能,即平均意义上更小的均方误差;在部分数据集上取得比现有最优的回归树预测方法--核回归更好的性能;在提升性能的同时,基本维持了原有基于最大似然估计预测的回归树的高效率,测试时间受数据集样本数量影响较小。
-
公开(公告)号:CN111310860B
公开(公告)日:2023-04-18
申请号:CN202010224284.8
申请日:2020-03-26
申请人: 清华大学深圳国际研究生院
IPC分类号: G06F18/214 , G06F18/241 , G06F18/2431 , G06N20/00
摘要: 本发明提供一种改进梯度提升决策树性能的方法及计算机可读存储介质,方法包括:训练基于梯度提升决策树的集成分类器,包括:构建训练数据和训练参数,训练数据包括带有标签的训练数据集和数据的特征集合,训练参数包括集成梯度提升决策树的数量和标签的翻转率;利用标签翻转率,采用标签翻转技术对训练数据集进行预处理得到预处理后的训练数据集;根据数据的特征集合和预处理后的训练数据集训练得到作为基学习器的梯度提升决策树;采用加和的方式将基学习器进行组合得到基于梯度提升决策树的集成分类器;利用集成分类器对新的分类样本进行分类并给出新样本的预测标签。在提升对标签噪声的鲁棒性能的同时保证训练效率。
-
公开(公告)号:CN111310860A
公开(公告)日:2020-06-19
申请号:CN202010224284.8
申请日:2020-03-26
申请人: 清华大学深圳国际研究生院
IPC分类号: G06K9/62
摘要: 本发明提供一种改进梯度提升决策树性能的方法及计算机可读存储介质,方法包括:训练基于梯度提升决策树的集成分类器,包括:构建训练数据和训练参数,训练数据包括带有标签的训练数据集和数据的特征集合,训练参数包括集成梯度提升决策树的数量和标签的翻转率;利用标签翻转率,采用标签翻转技术对训练数据集进行预处理得到预处理后的训练数据集;根据数据的特征集合和预处理后的训练数据集训练得到作为基学习器的梯度提升决策树;采用加和的方式将基学习器进行组合得到基于梯度提升决策树的集成分类器;利用集成分类器对新的分类样本进行分类并给出新样本的预测标签。在提升对标签噪声的鲁棒性能的同时保证训练效率。
-
-
-