【机器学习】决策树的优缺点
一:决策树的缺点1.如果你的边界很光滑动,决策树不会很好用。也就是说当你有不连续的实例时,决策树才表现最好。2. 如果有很多不相关的变量,决策树表现的不好。决策树的工作是通过找到变量间的相互作用。3. 数据框架:树的每次分裂都减少了数据集。有意地创造分裂将会潜在地引进偏差(bias)4. 高方差和不稳定性:运用贪婪策略到决策树方差,找到树的正确的开始点会
一:决策树的缺点
1.如果你的边界很光滑动,决策树不会很好用。也就是说当你有不连续的实例时,决策树才表现最好。
2. 如果有很多不相关的变量,决策树表现的不好。决策树的工作是通过找到变量间的相互作用。
3. 数据框架:树的每次分裂都减少了数据集。有意地创造分裂将会潜在地引进偏差(bias)
4. 高方差和不稳定性:运用贪婪策略到决策树方差,找到树的正确的开始点会影响最终的结果。也就是说早期的小的改变,之后都会有大的影响。所以,如果,举个例子,从你的世界里找出两个不同的样例,两个样例的开始点将会很不同。
(可能会有不同的方差)这会导致完全不同的结果。
5.不稳定性。扰乱一点,改动一点值,决策树就会改变。我们想要我们的分类器对噪声是健壮的,所以这不是我们期望的。
6.决策树不会给你正确的答案,它会给你许多可能的答案。改变树的根结点,从另一个变量开始,你可能会得到不同的树,哪个是对的呢?
7. 改变the size of bins,即划分连续属性的段的大小。比如年龄从0-200,你可以划分为1-10,11-20,这时size of bins是10. 如果你划分成1-20,21-40,那么size of bins 是20.
8.改变random seed 随机种子也会改变决策树。对另一个样例重复这个过程,你将会得到另一个树。自己做足够的排列,你将会得到你的树。
9.树的算法,通常使用卡方检验(chi-square) 去决定任何特定分裂的影响。但是即使在决定之前,算法已经尝试了多个变量的组合去找到最好的分裂。
参考资料:https://www.quora.com/What-are-the-disadvantages-of-using-a-decision-tree-for-classification
更多推荐
所有评论(0)