参考资料
- Understanding Random Forests Classifiers in Python: //www.datacamp.com/community/tutorials/random-forests-classifier-python
- Random Forest Algorithm with Python and Scikit-Learn: //stackabuse.com/random-forest-algorithm-with-python-and-scikit-learn/
- Random Forest in Python: //towardsdatascience.com/random-forest-in-python-24d0893d51c0
随机森林(RandomForest)算法
随机森林属于集成学习(Ensemble Learning)的一类算法,结合了多种相同类型的算法,即多个决策树,从而形成了一个随机森林树。
随即森林是用随机的方式建立一个森林,森林里面有很多的决策树组成,随机森林的每一棵决策树之间是没有关联的。上世纪八十年代Breiman等人发明分类树的算法(Breiman et al. 1984),通过反复二分数据进行分类或回归,计算量大大降低。2001年Breiman把分类树组合成随机森林(Breiman 2001a),即在变量(列)的使用和数据(行)的使用上进行随机化,生成很多分类树,再汇总分类树的结果。随机森林在运算量没有显著提高的前提下提高了预测精度。随机森林对多元公线性不敏感,结果对缺失数据和非平衡的数据比较稳健,可以很好地预测多达几千个解释变量的作用(Breiman 2001b),被誉为当前最好的算法之一(Iverson et al. 2008)。