深度学习3 基于规则的决策树模型

🕗 发布于 2024-07-11 16:44 深度学习 人工智能

1.决策树是一种归纳学习算法，从一些没有规则、没有顺序、杂乱无章的数据中，推理出决策模型。不管是什么算法的决策树，都是一种对实例进行分类的树形结构。决策树有三个要素：节点(Node)、分支(Branches)和结果(Leaf)。

训练决策树，其实就是对训练样本的分析，把样本通过某个边界划分成不同的结果。如图3.2所示，王华想玩游戏，但是他妈妈要求他写完作业才能玩。

2. ID3 算法

ID3算法通过熵(Entropy) 来决定谁来做父节点，也就是“条件”。一般来说，决策树就是不断地if…else，不断地做判断，每做一个判断就会产生新的分支，这个叫分裂。谁来分类，是根据Entropy 最小的原则来判断的。

(1)Entropy 衡量一个系统的混乱程度，例如，气体的 Entropy 会高于固体的Entropy。

(2)Entropy 可以表示一个随机变量的不确定性，例如，很多低概率事件的 Entropy 就很高，很少高概率事件的Entropy 会很低。

(3)Entropy也可以用来计算比特信息量。

Entropy不断最小化，其实就是提高分类正确率的过程。

3.C4.5

通过对 ID3 的学习，可以发现一个问题：如果一个模型，无限地延长分类，越细小的分割错误率就会越小。继续猫狗分类的实验，假设把决策树延伸，最后有10种结果，每个结果都只有1只猫或者1只狗，每个结果的Entropy 一定都是0。

但是，这样的分类是没有意义的，即过拟合、过度学习(Overfitting) 。举一个简单的例子来理解Overfitting, 像是私人定制的衣服非常适合某一个人穿，此时出现一个新人，就无法用这些既定的胸围、腰围来定制衣服了，必须重新测量。

因此，为了避免分割太细，C4.5 的改进之处是提出了信息增益率。如果分割太细，会降低信息增益率。其他原理与 ID3 相差不多。

4.CART

CART 的结构非常简单，一个父节点只能分为2个子节点，它使用的是GINI 指标来决定怎么分类的。CART 之所以是回归树，是因为使用回归方法来决定分布是否终止。不管如何分割，总会出现一些结果，仅有一点的不纯净。因此CART 对每一个结果(叶子节点)的数据分析均值方差，当方差小于一个给定值，就可以终止分裂。

CART 也有与ID3 类似的问题，就是分割过于细小，这里使用了一个技巧剪枝，把特别长的树枝直接剪掉。这个通过计算调整误差率(Adjusted Error Rate)实现。

5.随机森林

随机森林是一种集成学习的方法，是把多棵决策树集成在一起的一种算法，基本单元是决策树。其思想从一个直观的角度来解释，就是每一棵决策树，都是一个分类器，很多决策树必然会有很多不一样的结果。这个结果就是每一个决策树的投票，投票次数最多的类别就是最终输出。

6.Boosting 家族

XGBoost 所应用的算法内核就是GBDT(Gradient Boosting Decision Tree),也就是梯度提升决策树。这里XGBoost 应用的算法严格来说是优化的GBDT。XGBoost 是一种集成学习。这种集成学习，与Random Forest的集成学习，两者是不一样的。XGBoost 的集成学习是相关联的集成学习，决策树联合决策；而Random Forest 算法中各个决策树是独立的。第二棵决策树的训练数据，会与前面决策树的训练效果有关，每棵树之间是相互关联的。而Random Forest算法中每棵树都是独立的，彼此之间什么关系都没有。

泛化能力是指一个模型在新数据上的表现能力，即它能够处理未见过的数据或情况的能力。如果一个模型具有强大的泛化能力，这意味着它不仅在训练数据上表现良好，而且在未见过的数据上也能保持较高的准确率和有效性。

7.LightGBM

XGBoost 在每一次迭代的时候，都需要遍历整个训练数据多次。如果把整个训练集都放在内存就需要大量内存，如果不装进内存，每次读写就需要大量时间。所以XGBoost 的缺点主要就是计算量巨大，内存占用巨大。因为 XGBoost 采用的贪婪算法，可以找到最精确的划分条件(就是节点的分裂条件),但是这也是一个会导致过拟合的因素。过拟合：模型在训练集上的表现非常好，但在新的、未见过的数据上表现很差。

而 LightGBM 采用直方图算法(Histogram Algorithm),思想很简单，就是把连续的浮点数据离散化，然后把原来的数据用离散之后的数据替代。换句话说，就是把连续数据变成了离散数据。例如，现在有几个数字[0,0.1,0.2,0.3,0.8,0.9,0.9],把这些分为两类，最后离散结果就是：[0,0,0,0,1,1,1]。很多数据的细节被放弃了，相似的数据被划分到同一个bin中，数据差异消失了。① bin是指直方图中的一个柱子，直译过来是桶。②很多数据细节被放弃了，这从另一个角度来看可以增加模型的泛化能力，防止过拟合。

除此之外，LightGBM 还支持类别特征。大多数机器学习工具无法支持类别特征，而需要把类别特征通过one-hot 编码。这里简单讲一下one-hot 编码，如图3.5所示(其中，“0”代表是，“1”代表是)。

这样的编码方式会降低时间和空间的效率。尤其是当原来的特征动物类别中有几百种时，one-hot 编码之后会多出几百列特征，效率非常低。此外，one-hot 编码会导致决策树分类时出现很多数据量很小的空间，容易导致过拟合问题。如图3.6(a) 所示，XGBoost 会生成一棵更长、泛化能力更弱的决策树，而图3.6(b) 的 LightGBM 可以生成一个泛化能力强的模型。

8. CatBoost

CatBoost 的优势是可以很好地处理类别特征。CatBoost 提供了一种处理类别特征的方案：

(1)对所有的样本进行随机排序；

(2)把类别特征转化为数值型特征，每个数值型特征都是基于排在该样本之前的类别标签取均值，同时加入了优先级及权重系数。

总结：

(1)介绍了决策树的发展史。基本上后续的算法都是优于先前的算法的。

(2)ID3 算法：输入只能是分类数据(这意味着ID3 只能处理分类问题，不能处理回归任务),分裂的标准是Entropy。

(3)CART 算法：输入可以是分类数据(categorical),也可以是连续数据(numerical)。分裂标准是GINI 指标。

(4)Random Forest和 XGBoost 算法虽然都是集成学习，但是二者存在不同。

(5)XGBoost 虽然精准分裂，但是容易过拟合、耗时长、效率低； LightGBM 使用直方图算法，速度快、泛化能力较强。

(6)XGBoost 使用one-hot 编码，LightGBM 可以直接对类别特征进行处理；CatBoost 在处理类别特征的时候，更胜 LightGBM 一筹。总之，对于大数据的竞赛，LightGBM 和 CatBoost是主力。

原文地址：https://blog.csdn.net/m0_63860007/article/details/140241628

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：bqplot教程：在Jupyter Notebook中进行交互式数据可视化
下一篇：探索.svh勒索病毒：危害、传播与防御全解析

量化交易系统开发-实时行情自动化交易-3.4.3.3.期货市场深度数据
市场深度数据（Order Book Data）是了解市场供需力量的重要工具，显示了不同价位上买卖挂单的数量。通过分析市场深度数据，交易者可以识别支撑位和阻力位，了解流动性情况，为交易策略提供决策依据。
阅读更多2024-11-17
出现“ERR_CONNECTION_REFUSED”的原因及解决方法
通过尝试上述方法，您可能能够解决“ERR_CONNECTION_REFUSED”错误并成功访问该网站。如果问题仍然存在，可能需要进一步深入调查或与技术支持团队联系以解决问题。出现“ERR_CONNEC
阅读更多2024-11-17
聚类分析 | MSADBO优化Spectral谱聚类优化算法
聚类分析 | MSADBO优化Spectral谱聚类优化算法
阅读更多2024-11-17
应用层协议之WebSocket
WebSocket是一种强大的实时通信协议，它的双向通信和持久连接特性使得它在许多实时应用场景中发挥着重要作用。然而，在使用WebSocket时也需要注意其兼容性和安全性问题，并合理评估其对服务器资源
阅读更多2024-11-17
Python的秘密基地--Python基础知识
Python是一种高级、解释型、动态和多范式的编程语言，由Guido van Rossum于1989年底首次发布，1991年正式发布第一个版本。Python以简洁、易读和高效著称，非常适合初学者和专业
阅读更多2024-11-17
泛型11.16
①泛型是Java5的新特性，属于编译阶段的功能。②泛型可以让开发者在编写代码时指定集合中存储的数据类型③泛型作用：1.类型安全：指定了集合中元素的类型之后，编译器会在编译时进行类型检查，如果尝试将错误
阅读更多2024-11-17
Go语言24小时极速学习教程（三）常见标准库用法
常见标准库即Go语言自带的库，这里的所有包都可以通过import直接引入，如果你觉得实在是不好用，那么请先保证你学会了标准库的基础上，再学一下`Gookit`，特别是其中的`GoUtil`，千万不要轻
阅读更多2024-11-17
长连接配置以及断线重连
长连接配置以及断线重连
阅读更多2024-11-17
IDEA2024：右下角显示内存
实时知晓idea内存使用情况。
阅读更多2024-11-17
【Python】如何设置VSCode中的Pylint，消除各种没有必要的警告
最近打开VSCode，编辑之前创建的Python项目，突然发现多了一堆报错和警告，如下图所示。就非常吓人，因为之前这个项目是没有任何报错的，我赶紧试着运行了一下，还好，可以正常运行，那就说明是检测出了
阅读更多2024-11-17

深度学习3 基于规则的决策树模型

相关文章