NLP学习笔记３--Lecture/Decision Tree 、Random Forest、 XGboost

其中一个最简单的方式：随机采样训练每一个子树 bootstrap ：从训练数据集中采样固定个数个样本每次采样batchsize个样本组成Dbs 用采样出来的子集去训练学习得到一个baselearner 一直重复t次然后采用多数投票的方式融合起来 ---------图中的63.8% 是指用于训练的数据而其余未被用到的数据称为out of bag 袋外数据一定程度上也可以增加模型的泛化能力相当于dropout

另一种 feature bagging ：不采样数据采样特征一共收集到N个feature 对于每个base learner 用采样出来的feature训练base learning 然后bagging起来

XGBoost 陈天奇的设计理念

Review of key concepts of supervised learning

Regression Tree and Ensemble(What are we learning)

Gradient Boosting(How do we learn)

interpretation 解释，理解

Training Loss 衡量我们的模型拟合训练数据的程度 Regularization 正则项衡量模型复杂度

还有Ridge regression 、Lasso 、逻辑回归 component n.组成部分、成分 tradeoff 权衡

都会涉及到

bias variance tradeoff

偏差和方差的权衡以下为通俗理解

如何做ensemble？

直接把base learner 得到的预测分数加起来

优点不需要手工选择特征能很好地防止过拟合（随机sampling）

能很好地学习特征之间的交互（被选中特征的关联程度）

scalable 可扩展工业上很好扩展

训练中试图优化的是什么东西？？

1.树本身的结构

2.每一个叶子结点的得分

1.2 可以确定出唯一的树

更加抽象的来看可以直接把每个树作为优化的参数这些树本身就是需要优化的参数

如何去学习每一个树（fk）

每个回归树f（i）本质上就是一个函数学习的过程就是最优化的过程

定义一个目标函数然后优化

example ：是否喜欢听浪漫的音乐

随着时间的增加浪漫音乐的喜好程度不同

定义树的结构在哪个特征进行分裂

每一个分裂完之后的取值

如何定义目标函数？

training loss可以衡量bias 简单理解为准（比较预测值与真实值）

加 regularization可以衡量variance 简单理解为不发散或者种类少不复杂（如何衡量复杂程度：此处1.在几个点进行分裂（树的节点的数量） 2.计算对于这些height的L2norm）

信息熵增益》》减少训练误差

pruning 》》减少正则误差

max depth/ early stop 》》给搜索空间加限定

smoothing leaf value 限定取值不会有很大偏差》》相当于给leaf weights加上L2norm

针对不同的任务需要定义不同的目标函数

在XGBoost里面我们是如何学习各个回归树的？

如何做gradient boosting？

我们要学习的是一个树而不是连续向量故不能使用sgd 如何解决？

solution：Additive training （boosting算法）用boosting做ensemble

在定好初始值之后每一步添加一个新的树每次一学习等到一个新的树得到的新树和之前的值加起来可以得到一个更优的结果（每一次学到的新的树都是依赖于之前学到的树）

相较于bagging 这里引入之前bagging的解释 bagging学到的每一个决策树都是独立的（因为独立采样出来不同的子集）

但boosting在前一个时间的结果上进行进一步迭代（联想到rnn）

ensemble learning

试图在一个训练数据上取出不同子集训练多个决策树 sample M个子集 M个树为base learner 然后组合起来生成一个更强的分类器这一过程也叫bagging

Bagging： Train multiple independent Learners 可以很大程度提高泛化性

Boosting：Train multiple dependent Learner

选择使训练目标损失下降最大的树

提到一种方法用泰勒展开优化目标函数用近似的思想去掉高阶项简化目标函数

得到的新目标函数

在这里插入一下在知乎里看到的一个评论

就是说在这里理论上我们用近似的思想将目标函数简化成一个二次函数的形式看似是非常的完美但在实际应用中参数量和理论中所用到的参数量根本不在一个量级

就是这里省去的泰勒公式高阶项在真实参数量非常大的情况下可能已经不能被看做是一个近似值了

两个优点：1.可以清楚地看到优化目标长什么样子，在一定程度上衡量什么时候可以coverage

2.刚才的得到的优化目标和训练的loss函数是独立的可以分别封装loss函数和优化过程如果两种boosted tree 的训练就可以只改变loss函数的部分不改变优化的部分

重点：如何定义XGBoost里面的一棵树？

我们用两个变量表示一棵树

1.一个向量向量表示各个叶子节点对应的值

2.映射函数把每一个输入映射到一个叶子节点中去不需要care中间的结构给定一个x 就能得到这个x对应哪一个叶子节点

1.就代表之前说的每一个叶子节点对应的weight

2.就代表树的结构

只需要定义这两个变量就可以确定一棵唯一的树

如何衡量一棵树的复杂程度？//如何表示正则项

numbers of leaves 和L2norm of leaves scores（尽量接近于原点）

引入一个j 把目标函数进行一个代换就可以简化为一个关于wj的二次函数！！

再简化！

如果我们的树的形状是固定的我们就可以直接套用二次函数的结果得到目标函数的最优值

我们可以用目标函数的最小值衡量出我们树的结构好不好

比较最优的目标函数的值哪个最小更小及更优可以通过这个方法搜索我们树的结构

我们可以遍历所有树的结构对于每一个树都算一个最优函数值然后取最小的一个作为当前树的结构

但我们不可能遍历所有的树的结构，如何解决？

提出一种贪心算法试图做一个近似尽量选择出一个尽量优的结构

先假设这个树只有一个节点对于每一个特征都会增加一个分裂（二分）

提出一个gain的定义做这个分裂我们可以得到什么好处？

我们用分裂之后目标函数的最优值减去分裂之前目标函数的最优值定义这个gain值

选择最优分裂

如何在搜索树的过程中做优化？

1.对于每一个特征可以先排个序

2.搜索分类的时候只需要做一个线性的扫描就可以找到一个最优点

trick

对于离散的变量怎么办？

和我想的一样 one-hot编码把离散的特征做一个embedding

在优化的过程中可能得到一个熵的负增益 Gain为负值

如何调整？

和之前一样 early stopping 和剪枝两种方法

最后回顾一下 XGBoost算法是怎么设计的？

1.首先它是一个回归树的ensemble算法学习出一堆回归树最后的结果就是这一堆回归树的加和

2.在每次迭代过程中学习出一个新的树：在每次迭代的过程中计算出一些常量（损失函数关于y的一二阶导）

3.我们根据这两个常量搜索出一个最优的树的结构：对于每一个树的结构我们都能计算出一个目标函数的最优值最优值最小的结构就是我们要的最优结构同时在搜索的过程中用到了贪心算法定义一个gain 去选择我们需要搜索的树的结构

4. 我们得到的最优树的结构再用boost算法讲新得到的ft（x）加上上一时刻得到的输出生成一个新的输出然后再衡量一下我们新得到的结果能不能满足我们的需求选择是否early stopping

trick 加上一个参数给新旧输出加一个权重尽量降低之前输出的权重并增加新输出的权重

summary

1.我们把模型参数目标函数或者说损失函数和正则项这些概念分开考虑可以给我们时间带来很多方便 ---简单理解哪里不对调哪里

2.对于bias-variance 的tradeoff 简单理解一个模型在训练数据集上的性能和在测试数据集上的性能的tradeoff // 但在实际应用中可能很多都更偏向于过拟合只要数据足够大就可以把一切都拟合

简单理解学的越多我就越厉害性能就越好我管你是不是过拟合

3.以一个非常好的角度介绍了设计理念且代码可复用性高 //广泛应用于各种比赛

还有一些boost树的变种 LightGBM,CatBoost 遇到了再学

争取下周复现一下这个代码。。

CSDN学习社区

CSDN联合极客时间，共同打造面向开发者的精品内容学习社区，助力成长！

更多推荐

Kaldi之父，IEEE Fellow，小米首席语音科学家Daniel Povey将出席2024全球机器学习技术大会并发表演讲！

CSDN学习社区

探索神经网络在商品销售和图像识别中的应用

CSDN学习社区

基于stm32F103的座面声控台灯

CSDN学习社区

所有评论(0)

查看更多评论

Lyttonkeepgoing

@m0_53292725

已为社区贡献2条内容

NLP学习笔记３--Lecture/Decision Tree 、Random Forest、 XGboost

Lyttonkeepgoing

WHAT'S NLP?

NLP技术四个维度：

NLP的应用场景：

决策树

熵

ID3算法

C4.5算法

CART Tree

ensemble learning

随机森林

XGBoost 陈天奇的设计理念

bias variance tradeoff

如何做ensemble？

训练中试图优化的是什么东西？？

如何去学习每一个树 （fk）

如何定义目标函数？

如何做gradient boosting？

重点：如何定义XGBoost里面的一棵树？

如何衡量一棵树的复杂程度？//如何表示正则项

但我们不可能遍历所有的树的结构，如何解决？

如何在搜索树的过程中做优化？

对于离散的变量怎么办？

最后回顾一下 XGBoost算法是怎么设计的？

summary

所有评论(0)

温馨提示：您尚未绑定手机号

Lyttonkeepgoing

如何去学习每一个树（fk）