机器学习入门研究（十一）-随机森林分析泰坦尼克生存的情况

目录随机森林集成学习方法随机森林原理sklearn的API实例分析总结在机器学习入门研究（九）-决策树知道决策树缺点在于容易出现多度拟合，在解决这个问题的时候有一种方案就是随机森林。随机森林是一个集成学习方法。集成学习方法集成学习方法就是建立几个模型组合来解决单一预测问题。工作原理：生成多个分类器/模型，各自独立的学习和作出预测。这些预测最后组...

好人静

826人浏览 · 2019-12-05 16:19:39

好人静 · 2019-12-05 16:19:39 发布

在机器学习入门研究（九）-决策树知道决策树缺点在于容易出现多度拟合，在解决这个问题的时候有一种方案就是随机森林。

随机森林

是一个集成学习方法。

集成学习方法

集成学习方法就是建立几个模型组合来解决单一预测问题。

工作原理：生成多个分类器/模型，各自独立的学习和作出预测。这些预测最后组合成组合预测，因此优于任何一个单分类的作出的预测。

随机森林

是一个包含多个决策树的分类器，并且输出的类别是由个别树输出的类别的众数而定（少数服从多数）。

例如训练了5棵树，有4棵树得出分类为True，有1棵树得出的分类为False，则该最后的分类就是True。

原理

为了生成不同的树，需要随机从训练集和特征中抽取。假设有N个样本，每个样本有M个特征，其中随机森林的两个随机指的是：

训练集随机

从N个样本集中随机抽取一个样本放到新的训练集合中，然后在放回到原训练集中，然后在从原样本集在抽取在抽取一个样本放到新的训练集中，直至循环抽取放回N次；

采用的是bootstrap抽样；

有可能会出现重复样本；

特征随机

随机选取m个特征来建立决策树，m<<M；

可以起到降维效果，由于特征维数比较少，可以提高计算速度。

为什么采用bootstrap抽样

（1）随机抽取

如果不随机抽取，那么每次得到的训练集都一样，那么最终训练出的树分类结果也一致。

（2）有放回的抽样

如果不是有放回的抽样，那么每棵树的训练样本都是不同的，都是没有交集的，训练出来的每棵树出来都是有很大的差异的；而随机森林取决于多棵树的投票结果。

sklearn的API

sklearn.ensemble.RandomForestClassifier( n_estimators='warn',
                 criterion="gini",
                 max_depth=None,
                 min_samples_split=2,
                 min_samples_leaf=1,
                 min_weight_fraction_leaf=0.,
                 max_features="auto",
                 max_leaf_nodes=None,
                 min_impurity_decrease=0.,
                 min_impurity_split=None,
                 bootstrap=True,
                 oob_score=False,
                 n_jobs=None,
                 random_state=None,
                 verbose=0,
                 warm_start=False,
                 class_weight=None)

其中参数如下：

参数	含义
n_estimators	默认为10.森林中的树木的数量
criterion	决策树对应的criterion，默认为gini，也可以为entropy，可参见机器学习入门研究（九）-决策树
max_depth	决策树对应的max_depth，树的最大深度，可参见机器学习入门研究（九）-决策树
min_samples_split	决策树对应的min_samples_split，可参见机器学习入门研究（九）-决策树
min_samples_leaf	决策树对应的min_samples_leaf，可参见机器学习入门研究（九）-决策树
min_weight_fraction_leaf	决策树对应的min_weight_fraction_leaf，可参见机器学习入门研究（九）-决策树
max_features	决策树的最大特征数量默认为None，样本数<50的时候，使用该值 auto：其值就是sqrt(特征值) sqrt：其值就是sqrt(特征值) log2：其值就是log2(特征值) None：其值就是最大特征值数
max_leaf_nodes	决策树对应的max_leaf_nodes，可参见机器学习入门研究（九）-决策树
min_impurity_decrease	决策树对应的min_impurity_decrease，可参见机器学习入门研究（九）-决策树
min_impurity_split	决策树对应的min_impurity_split，可参见机器学习入门研究（九）-决策树
bootstrap	构建树的时候是否使用随机放回抽样。默认为True
oob_score	是否使用袋外样本来估计泛化精度。
n_jobs	并行运行的工作（作业）数量。如果值为-1，那么工作数量被设置为核的数量。
random_state	随机种子
verbose	控制决策树建立过程的冗余度。
warm_start	当被设置为True时，重新使用之前呼叫的解决方案，用来给全体拟合和添加更多的估计器，反之，仅仅只是为了拟合一个全新的森林
class_weight	决策树对应的class_weight，可参见机器学习入门研究（九）-决策树

其中n_estimators、max_depth、min_samples_leaf、min_samples_spli为超参数，可以用之前机器学习入门研究（七）-模型选择与调优提到的网格搜索进行获取到最佳参数。

实例分析

用随机森林来分析之前的泰坦尼克号生存情况的问题。直接看下代码，并且使用网格搜索和交叉验证来得到n_estimators、max_depth的最佳参数

def random_forest():
    # （1）获取数据
    titanic = pd.read_csv("tree_titanic.txt")
    # "row.names","pclass","survived","name","age","embarked","home.dest","room","ticket","boat","sex"
    print(titanic.head())

    # （2）数据处理 - 需要进行挑选特征值和目标值
    x = titanic[["pclass", "age", "sex"]]
    y = titanic["survived"]
    print("特征：\n", x.head())
    # （2）数据处理 - 因为年龄数据有缺失，则需要进行填充：采用年龄的平均值进行补充
    x["age"].fillna(x["age"].mean(), inplace=True)
    # （2）数据处理 - 转换成字典，然后进行特征工程的字典抽取
    x = x.to_dict(orient="records")
    print("转换成字典之后的特征：\n", x)

    # （3）划分训练集、测试集
    x_train, x_test, y_train, y_test = train_test_split(x, y, random_state=22)

    # （4）特征工程-进行字典特征抽取
    transfer = DictVectorizer()
    x_train = transfer.fit_transform(x_train)
    x_test = transfer.transform(x_test)

    print("特征工程之后的训练集的特征：\n", x_train)
    print("特征：\n", transfer.get_feature_names())

    # （5）训练模型

    classifier = RandomForestClassifier()
    #网格搜索
    param = {"max_depth": range(2, 50, 2),"n_estimators": [120, 200, 300, 500, 800, 1200]}
    classifier = GridSearchCV(classifier, param_grid=param, cv=6)
    classifier.fit(x_train, y_train)

    y_predict = classifier.predict(x_test)
    print("测试结果为：\n", y_predict == y_test)
    print("最好预估器为：\n", classifier.best_estimator_)

    # （6）模型评估
    score = classifier.score(x_test, y_test)
    print("准确度为： ", score)

    return None

从代码中我看可以看到在训练模型的过程中增加了网格搜索来得到n_estimators、max_depth的最佳参数，采用相同的数据集我们看下运行结果如下：

最好预估器为：
 RandomForestClassifier(bootstrap=True, class_weight=None, criterion='gini',
                       max_depth=5, max_features='auto', max_leaf_nodes=None,
                       min_impurity_decrease=0.0, min_impurity_split=None,
                       min_samples_leaf=1, min_samples_split=2,
                       min_weight_fraction_leaf=0.0, n_estimators=500,
                       n_jobs=None, oob_score=False, random_state=None,
                       verbose=0, warm_start=False)
准确度为：  0.7872340425531915

相比较前面的决策树，准确度有所提高。