并行处理机器学习决策树训练

    公开(公告)号:CN102566981B

    公开(公告)日:2015-01-14

    申请号:CN201110443208.7

    申请日:2011-12-14

    申请人: 微软公司

    IPC分类号: G06F9/38 G06N5/00

    摘要: 本发明涉及并行处理机器学习决策树训练。此处所公开的各实施例涉及通过基于图形处理单元(GPU)的机器学习来生成决策树。例如,一个实施例提供了一种方法,包括,对于决策树的每个层级:在并行处理流水线的每个GPU处对示例集中的每个示例执行针对特征集中的一个特征的特征测试。方法进一步包括将特征测试的结果累积在本地存储器块中。该方法还包括,将累积的结果从每个本地存储器块的写入到全局存储器,以生成层级中的每个节点的特征的直方图,并且对于层级中的每个节点,根据直方图将具有最低熵的特征分配给该节点。

    并行处理机器学习决策树训练

    公开(公告)号:CN102566981A

    公开(公告)日:2012-07-11

    申请号:CN201110443208.7

    申请日:2011-12-14

    申请人: 微软公司

    IPC分类号: G06F9/38 G06N5/00

    摘要: 本发明涉及并行处理机器学习决策树训练。此处所公开的各实施例涉及通过基于图形处理单元(GPU)的机器学习来生成决策树。例如,一个实施例提供了一种方法,包括,对于决策树的每个层级:在并行处理流水线的每个GPU处对示例集中的每个示例执行针对特征集中的一个特征的特征测试。方法进一步包括将特征测试的结果累积在本地存储器块中。该方法还包括,将累积的结果从每个本地存储器块的写入到全局存储器,以生成层级中的每个节点的特征的直方图,并且对于层级中的每个节点,根据直方图将具有最低熵的特征分配给该节点。

    分布式决策树训练
    6.
    发明公开

    公开(公告)号:CN102331992A

    公开(公告)日:2012-01-25

    申请号:CN201110162273.2

    申请日:2011-06-08

    申请人: 微软公司

    IPC分类号: G06F17/30

    CPC分类号: G06K9/6282

    摘要: 本发明涉及分布式决策树训练。计算机化的决策树训练系统可以包括被配置为接收用于训练决策树的训练数据输入的分布式控制处理单元。系统可以进一步包括多个数据批处理单元,其中每个数据批处理单元被配置为为训练数据的分别的数据批次评估决策树的多个分裂函数中的每一个,从而为每个分裂函数、为数据批次中的每个数据计算部分的直方图。系统可以进一步包括多个节点批处理单元,节点批处理单元被配置为为每个分裂函数聚集相关的部分直方图,以为边缘树节点的子集中的每个节点的每个分裂函数形成聚集的直方图,并且被配置为通过计算为边缘树节点产生最高的信息增益的分裂函数来为每个边缘树节点确定选定的分裂函数。