顶[0] 分享评论[0] 编辑

随机森林

在机器学习中，随机森林是一个包含多个决策树的分类器，并且其输出的类别是由个别树输出的类别的众数而定。 Leo Breiman和Adele Cutler发展出推论出随机森林的算法。而 "Random Forests" 是他们的商标。这个术语是1995年由贝尔实验室的Tin Kam Ho所提出的随机决策森林（random decision forests）而来的。这个方法则是结合 Breimans 的 "Bootstrap aggregating" 想法和 Ho 的"random subspace method"" 以建造决策树的集合。公卫百科

学习算法

根据下列算法而建造每棵树：
1.用 N 来表示训练例子的个数，M表示变量的数目。
2.我们会被告知一个数 m ，被用来决定当在一个节点上做决定时，会使用到多少个变量。m应小于M
3.从N个训练案例中以可重复取样的方式，取样N次，形成一组训练集（即bootstrap取样。）。并使用这棵树来对剩余预测其类别，并评估其误差。

公卫论坛

4.对于每一个节点，随机选择m个基于此点上的变量。根据这 m 个变量，计算其最佳的分割方式。
5.每棵树都会完整成长而不会剪枝（Pruning）（这有可能在建完一棵正常树状分类器后会被采用）。

优点

随机森林的优点有：
对于很多种资料，它可以产生高准确度的分类器。公卫论坛
它可以处理大量的输入变量。
它可以在决定类别时，评估变量的重要性。
在建造森林时，它可以在内部对于一般化后的误差产生不偏差的估计。
它包含一个好方法可以估计遗失的资料，并且，如果有很大一部分的资料遗失，仍可以维持准确度。
它提供一个实验方法，可以去侦测 variable interactions 。

公卫百科

对于不平衡的分类资料集来说，它可以平衡误差。
它计算各例中的亲近度，对于数据挖掘、侦测偏离者（outlier）和将资料视觉化非常有用。
使用上述。它可被延伸应用在未标记的资料上，这类资料通常是使用非监督式聚类。也可侦测偏离者和观看资料。
学习过程是很快速的。公卫人

词条内容仅供参考，如果您需要解决具体问题
（尤其在法律、医学等领域），建议您咨询相关领域专业人士。

如果您认为本词条还有待完善，请编辑

上一篇董红军下一篇上海市静安区静安寺街道社区卫生服务中心

随机森林

附件列表

标签

同义词