01 树与森林
在构建决策树的时候,可以让树进行完全生长,也可以通过参数控制树的深度或者叶子节点的数量,通常完全生长的树会带来过拟合问题。过拟合一般由数据中的噪声和离群点导致,一种解决过拟合的方法是进行剪枝,去除树的一些杂乱的枝叶。
实际应用中,一般可用随机森林来代替,随机森林在决策树的基础上,会有更好的表现,尤其是防止过拟合。
在机器学习算法中,有一类算法比较特别,叫组合算法(Ensemble),即将多个基算法(Base)组合起来使用。每个基算法单独预测,最后的结论由全部基算法进行投票(用于分类问题)或者求平均(包括加权平均,用于回归问题)。
组合算法中,一类是Bagging(装袋),另一类是Boosting(提升),随机森林便是Bagging中的代表。使用多颗树进行单独预测,最后的结论由这些树预测结果的组合共同来决定,这也是“森林”名字的来源。每个基分类器可以很弱,但最后组合的结果通常能很强,这也类似于:“三个臭皮匠顶个诸葛亮”的思想。
上面文章换一种理解,即为:掌握了随机森林,基本上可以处理很多常见的机器学习问题。由此可见,组合算法在很多时候,其预测的性能都会优于单独的算法,这也正是随机森林的魅力所在。
02 处处随机
多个人组成的团队,是不是一定就强于一个人呢?团队的产出并不能把每个人的力量相加,并非和“众人拾柴火焰高”的道理一样。要让团队的总产出高于单个人的产出,那必须是每个人都有其它人不具备的知识或者能力,如果大家都是完全相同的知识或者能力,在解决难题上并没有帮助。假设对一个数据的预测,大家的结论都是1,最后组合结论依然是1,没有任何改变。对预测准确率,没有任何提升。
这也是“森林”前面还有“随机”这个修饰词的原因,随机就是让每个颗树不一样,如果都一样,组合后的效果不会有任何提升。假设每颗树不一样,单独预测错误率大概都是40%(够弱了吧,很多时候都会犯错),但三颗树组合的后的错误率就变成了35.2%(至少一半以上(两颗树)同时犯错结果才会犯错),其计算方法为:
3个全错(一种情况) + 2个错1个对(3种组合):
1 0.4^3 + 3 0.4^2 * (1-0.4)^1 = 0.352
因此,随机森林算法中,“随机”是其核心灵魂,“森林”只是一种简单的组合方式而已。随机森林在构建每颗树的时候,为了保证各树之间的独立性,通常会采用两到三层的随机性。
从数据抽样开始,每颗树都随机地在原有数据的基础上进行有放回的抽样。假定训练数据有1万条,随机抽取8千条数据,因为是有放回的抽样,可能原数据中有500条被抽了两次,即最后的8千条中有500条是重复的数据。每颗树都进行独立的随机抽样,这样保证了每颗树学习到的数据侧重点不一样,保证了树之间的独立性。
抽取了数据,就可以开始构建决策分支了,在每次决策分支时,也需要加入随机性,假设数据有20个特征(属性),每次只随机取其中的几个来判断决策条件。假设取4个属性,从这4个特征中来决定当前的决策条件,即忽略其它的特征。取特征的个数,通常不能太小,太小了使得单颗树的精度太低,太大了树之间的相关性会加强,独立性会减弱。通常取总特征的平方根,或者log2(特征数)+1,在scikit-learn的实现中,支持sqrt与log2,而spark还支持onethird(1/3)。
在结点进行分裂的时候,除了先随机取固定个特征,然后选择最好的分裂属性这种方式,还有一种方式,就是在最好的几个(依然可以指定sqrt与log2)分裂属性中随机选择一个来进行分裂。scikit-learn中实现了两种随机森林算法,一种是RandomForest,另外一种是ExtraTrees,ExtraTrees就是用这种方式。在某些情况下,会比RandomForest精度略高。
总结起来,使用随机性的三个地方:
因此,理解了这几个地方的随机性,以及随机性是为了保证各个基算法模型之间的相互独立,从而提升组合后的精度。当然,还需要保证每个基分类算法不至于太弱,至少要强于随机猜测,即错误率不能高于0.5。
03 sklearn与mllib
scikit-learn和spark中都实现了随机森林,但各自有些细小的区别。
在scikit-learn中,同样只是简单几行代码即可:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
|
# sklearn_rf.py
import pandas as pd
from sklearn.ensemble import RandomForestClassifier
df = pd.read_csv('sklearn_data.csv')
train, test = df.query("is_date != -1"), df.query("is_date == -1")
y_train, X_train = train['is_date'], train.drop(['is_date'], axis=1)
X_test = test.drop(['is_date'], axis=1)
model = RandomForestClassifier(n_estimators=50,
criterion='gini',
max_features="sqrt",
min_samples_leaf=1,
n_jobs=4,
)
model.fit(X_train, y_train)
print model.predict(X_test)
print zip(X_train.columns, model.feature_importances_)
|
调用RandomForestClassifier时的参数说明:
从前面的随机森林构建过程来看,随机森林的每颗树之间是独立构建的,而且尽量往独立的方向靠,不依赖其它树的构建,这一特点,在当前的大数据环境下,尤其被人喜爱,因为它能并行,并行,并行……。
能完全并行的算法,一定会被人们追捧,在资源够的情况下,可以同时并行构建大量的决策树。scikit-learn虽然是单机版本,不能做分布式,但也可以利用单机的多枋来并行。
spark中,更是能发挥分布式的特点了:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
|
from pprint import pprint
from pyspark import SparkContext
from pyspark.mllib.tree import RandomForest
from pyspark.mllib.regression import LabeledPoint
sc = SparkContext()
data = sc.textFile('spark_data.csv').map(lambda x: x.split(',')).map(lambda x: (float(x[0]), int(x[1]), int(x[2]), float(x[3]), int(x[4]), int(x[5])))
train = data.filter(lambda x: x[5]!=-1).map(lambda v: LabeledPoint(v[-1], v[:-1]))
test = data.filter(lambda x: x[5]==-1)#.map(lambda v: LabeledPoint(v[-1], v[:-1]))
model = RandomForest.trainClassifier(train,
numClasses=2,
numTrees=50,
categoricalFeaturesInfo={1:2, 2:2, 4:3},
impurity='gini',
maxDepth=5,
)
print 'The predict is:', model.predict(test).collect()
print 'The Decision tree is:', model.toDebugString()
|
和决策树版本相比,唯一的变化,就是将DecistionTree换成了RandomForest,另外增加了一个指定树颗数的参数:numTrees=50。
而和scikit-learn版本相比,spark中会通过categoricalFeaturesInfo={1:2, 2:2, 4:3}参数指定第5个属性(工作属性)具有3种不同的类别,因此spark在划分的时候,是按类别变量进行处理。而scikit-learn中,依然当成连续的变量处理,所以在条件判断的时候,才会有house
当有多个最优分割的时候,spark与scikit-learn在选择上也有区别,spark会按属性顺序进行选择,而scikit-learn会随机选择一个。这也是导致scikit-learn在多次运行中会输出0和1的问题。
scikit-learn中,还可以输出参数重要性,这也是决策树和随机森林的优点之一(目前pyspark还不支持输入参数重要性):
1
2
|
# scikit-learn中
print zip(X_train.columns, model.feature_importances_)
|
[(‘height’, 0.25), (‘house’,’car’, 0.0), (‘handsome’, 0.60), (‘job’, 0.0)]
04 特点与应用
随机森林基本上继承决策树的全部优点,只需做很少的数据准备,其他算法往往需要数据归一化。决策树能处理连续变量,还能处理离散变量,当然也能处理多分类问题,多分类问题依然还是二叉树。决策树就是if-else语句,区别只是哪些条件写在if,哪些写在else,因此易于理解和解释。
决策树的可解释性强 ,你可以打印出整个树出来,从哪个因素开始决策,一目了然。但随机森林的可解释性就不强了。所谓可解释性,就是当你通过各种调参进行训练,得出一个结论,你老大来问你,这个结论是怎么得出来的?你说是模型自己训练出来的,老大又问了,比如举一条具体的数据,你说一说得出结论的过程呢?因为随机森林引入了随机取特征,而且是由多颗树共同决定,树一旦多了,很难说清楚得出结论的具体过程。虽然可以打印每颗树的结构,但很难分析。
虽然不好解释,但它解决了决策树的过拟合问题,使模型的稳定性增加,对噪声更加鲁棒,从而使得整体预测精度得以提升。
因为随机森林能计算参数的重要性,因此也可用于对数据的降维,只选取少量几维重要的特征来近似表示原数据。同理,在数据有众多的特征时,也可以用于特征选择,选择关键的特征用于算法中。
随机森林还有天生的并行性,可以很好的处理大规模数据,也可以很容易的在分布式环境中使用。
最后,在大数据环境下,随着森林中树的增加,最后生成的模型可能过大,因为每颗树都是完全生长,存储了用于决策的全部数据,导致模型可能达到几G甚至几十G。如果用于在线的预测,光把模型加载到内存就需要很长时间,因此比较适合离线处理。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数字化浪潮中,数据驱动决策已成为企业发展的核心竞争力,数据分析人才的需求持续飙升。世界经济论坛发布的《未来就业报告》, ...
2025-03-28你有没有遇到过这样的情况?流量进来了,转化率却不高,辛辛苦苦拉来的用户,最后大部分都悄无声息地离开了,这时候漏斗分析就非 ...
2025-03-27TensorFlow Datasets(TFDS)是一个用于下载、管理和预处理机器学习数据集的库。它提供了易于使用的API,允许用户从现有集合中 ...
2025-03-26"不谋全局者,不足谋一域。"在数据驱动的商业时代,战略级数据分析能力已成为职场核心竞争力。《CDA二级教材:商业策略数据分析 ...
2025-03-26当你在某宝刷到【猜你喜欢】时,当抖音精准推来你的梦中情猫时,当美团外卖弹窗刚好是你想吃的火锅店…… 恭喜你,你正在被用户 ...
2025-03-26当面试官问起随机森林时,他到底在考察什么? ""请解释随机森林的原理""——这是数据分析岗位面试中的经典问题。但你可能不知道 ...
2025-03-25在数字化浪潮席卷的当下,数据俨然成为企业的命脉,贯穿于业务运作的各个环节。从线上到线下,从平台的交易数据,到门店的运营 ...
2025-03-25在互联网和移动应用领域,DAU(日活跃用户数)是一个耳熟能详的指标。无论是产品经理、运营,还是数据分析师,DAU都是衡量产品 ...
2025-03-24ABtest做的好,产品优化效果差不了!可见ABtest在评估优化策略的效果方面地位还是很高的,那么如何在业务中应用ABtest? 结合企业 ...
2025-03-21在企业数据分析中,指标体系是至关重要的工具。不仅帮助企业统一数据标准、提升数据质量,还能为业务决策提供有力支持。本文将围 ...
2025-03-20解锁数据分析师高薪密码,CDA 脱产就业班助你逆袭! 在数字化浪潮中,数据驱动决策已成为企业发展的核心竞争力,数据分析人才的 ...
2025-03-19在 MySQL 数据库中,查询一张表但是不包含某个字段可以通过以下两种方法实现:使用 SELECT 子句以明确指定想要的字段,或者使 ...
2025-03-17在当今数字化时代,数据成为企业发展的关键驱动力,而用户画像作为数据分析的重要成果,改变了企业理解用户、开展业务的方式。无 ...
2025-03-172025年是智能体(AI Agent)的元年,大模型和智能体的发展比较迅猛。感觉年初的deepseek刚火没多久,这几天Manus又成为媒体头条 ...
2025-03-14以下的文章内容来源于柯家媛老师的专栏,如果您想阅读专栏《小白必备的数据思维课》,点击下方链接 https://edu.cda.cn/goods/sh ...
2025-03-13以下的文章内容来源于刘静老师的专栏,如果您想阅读专栏《10大业务分析模型突破业务瓶颈》,点击下方链接 https://edu.cda.cn/go ...
2025-03-12以下的文章内容来源于柯家媛老师的专栏,如果您想阅读专栏《小白必备的数据思维课》,点击下方链接 https://edu.cda.cn/goods/sh ...
2025-03-11随着数字化转型的加速,企业积累了海量数据,如何从这些数据中挖掘有价值的信息,成为企业提升竞争力的关键。CDA认证考试体系应 ...
2025-03-10推荐学习书籍 《CDA一级教材》在线电子版正式上线CDA网校,为你提供系统、实用、前沿的学习资源,助你轻松迈入数据分析的大门! ...
2025-03-07在数据驱动决策的时代,掌握多样的数据分析方法,就如同拥有了开启宝藏的多把钥匙,能帮助我们从海量数据中挖掘出关键信息,本 ...
2025-03-06