随机森林
在机器学习中,随机森林是一个包含多个决策树的分类器, 并且其输出的类别是由个别树输出的类别的众数而定。 Leo Breiman和Adele Cutler发展出推论出随机森林的算法。 而 "Random Forests" 是他们的商标。 这个术语是1995年由贝尔实验室的Tin Kam Ho所提出的随机决策森林(random decision forests)而来的。这个方法则是结合 Breimans 的 "Bootstrap aggregating" 想法和 Ho 的"random subspace method"" 以建造决策树的集合。
公卫考场
1.用 N 来表示训练例子的个数,M表示变量的数目。
2.我们会被告知一个数 m ,被用来决定当在一个节点上做决定时,会使用到多少个变量。m应小于M
3.从N个训练案例中以可重复取样的方式,取样N次,形成一组训练集(即bootstrap取样。)。并使用这棵树来对剩余预测其类别,并评估其误差。 公卫论坛
4.对于每一个节点,随机选择m个基于此点上的变量。根据这 m 个变量,计算其最佳的分割方式。
5.每棵树都会完整成长而不会剪枝(Pruning)(这有可能在建完一棵正常树状分类器后会被采用)。
对于很多种资料,它可以产生高准确度的分类器。
它可以处理大量的输入变量。
它可以在决定类别时,评估变量的重要性。
在建造森林时,它可以在内部对于一般化后的误差产生不偏差的估计。
它包含一个好方法可以估计遗失的资料,并且,如果有很大一部分的资料遗失,仍可以维持准确度。
它提供一个实验方法,可以去侦测 variable interactions 。 公卫论坛
对于不平衡的分类资料集来说,它可以平衡误差。
它计算各例中的亲近度,对于数据挖掘、侦测偏离者(outlier)和将资料视觉化非常有用。
使用上述。它可被延伸应用在未标记的资料上,这类资料通常是使用非监督式聚类。也可侦测偏离者和观看资料。
学习过程是很快速的。 公卫考场
学习算法
根据下列算法而建造每棵树: 1.用 N 来表示训练例子的个数,M表示变量的数目。
2.我们会被告知一个数 m ,被用来决定当在一个节点上做决定时,会使用到多少个变量。m应小于M
3.从N个训练案例中以可重复取样的方式,取样N次,形成一组训练集(即bootstrap取样。)。并使用这棵树来对剩余预测其类别,并评估其误差。 公卫论坛
4.对于每一个节点,随机选择m个基于此点上的变量。根据这 m 个变量,计算其最佳的分割方式。
5.每棵树都会完整成长而不会剪枝(Pruning)(这有可能在建完一棵正常树状分类器后会被采用)。
优点
随机森林的优点有: 对于很多种资料,它可以产生高准确度的分类器。
公卫家园
它可以处理大量的输入变量。
它可以在决定类别时,评估变量的重要性。
在建造森林时,它可以在内部对于一般化后的误差产生不偏差的估计。
它包含一个好方法可以估计遗失的资料,并且,如果有很大一部分的资料遗失,仍可以维持准确度。
它提供一个实验方法,可以去侦测 variable interactions 。 公卫论坛
对于不平衡的分类资料集来说,它可以平衡误差。
它计算各例中的亲近度,对于数据挖掘、侦测偏离者(outlier)和将资料视觉化非常有用。
使用上述。它可被延伸应用在未标记的资料上,这类资料通常是使用非监督式聚类。也可侦测偏离者和观看资料。
学习过程是很快速的。 公卫考场
附件列表
词条内容仅供参考,如果您需要解决具体问题
(尤其在法律、医学等领域),建议您咨询相关领域专业人士。
如果您认为本词条还有待完善,请 编辑
上一篇 董红军 下一篇 上海市静安区静安寺街道社区卫生服务中心