分类算法——决策树详解

🕗 发布于 2024-11-05 02:21 分类决策树数据挖掘

决策树的底层原理

决策树是一种常用的分类和回归算法，其基本原理是通过一系列的简单决策，将数据集划分为多个子集，从而实现分类。决策树的核心思想是通过树形结构表示决策过程，节点代表特征，边代表决策，叶子节点代表类别。

下面是一个决策树例子（用挑选好西瓜来举例，最终结果为判断是好瓜还是坏瓜）：

1. 决策树的基本结构

根节点：表示整个数据集。
内部节点：表示根据某一特征进行的决策。
叶子节点：表示最终的分类结果或回归值。

决策树的构建

决策树的构建过程通常采用递归的方式，核心步骤包括特征选择、数据划分和停止条件。

2. 特征选择

在每个节点上，需要选择一个特征来划分数据集，常用的特征选择标准包括：

信息增益：基于香农信息论，信息增益是划分前后信息的不确定性减少量。公式为：

$IG(D,A)=H(D)-\sum_{v\in A}^{} \frac{\left | D_{v} \right |}{\left | D \right |}H(D_{v})$

其中，H(D) 为数据集 D 的熵， $D_{v}$ 为特征 A 取值为 v 的子集。
信息增益率：为了解决信息增益偏向于选择取值较多的特征的问题，信息增益率在信息增益的基础上进行归一化：

$GainRatio(D,A)= \frac{IG(D,A)}{H(A)}$
基尼指数：主要用于 CART（Classification and Regression Trees）算法，计算某个特征的基尼指数，公式为：

$Gini(D)=1-\sum_{i=1}^{C}p_{i}^{2}$

其中， $p_{i}$ 为类 $i$ 在数据集 D 中的比例。

3. 数据划分

根据选择的特征，将数据集划分为多个子集。对于连续特征，通常会选取一个阈值，将数据集分为小于阈值和大于阈值两部分；对于分类特征，则根据每个取值进行划分。

4. 停止条件

决策树的构建过程需要设定停止条件，常见的条件包括：

达到最大深度。
节点样本数低于某一阈值。
信息增益或基尼指数的减少低于某一阈值。

决策树的剪枝

为了解决过拟合问题，决策树通常会进行剪枝，分为预剪枝和后剪枝：

预剪枝：在树的构建过程中，实时评估当前分裂的效果，决定是否继续分裂。
后剪枝：先构建完整的树，再从叶子节点向上进行剪枝，去掉一些不必要的分支。

决策树的算法

决策树的构建算法主要有 ID3、C4.5、CART 等。

ID3：使用信息增益作为特征选择的标准，适用于分类任务。
C4.5：改进了 ID3，使用信息增益率作为标准，支持连续特征和缺失值。
CART：使用基尼指数进行特征选择，支持分类和回归任务。

决策树的优缺点

优点：

直观易懂：决策树模型易于理解和可视化。
无需特征缩放：对特征的缩放和归一化不敏感。
适用性广：可以处理分类和回归问题，且对数据类型没有强要求。

缺点：

过拟合：决策树容易在训练数据上过拟合，尤其是深度较大的树。
不稳定性：对训练数据的微小变化敏感，可能导致树的结构有较大差异。
偏向于某些特征：使用信息增益时，可能偏向于选择取值较多的特征。

决策树的实现

在 Python 中，使用 scikit-learn 库可以非常方便地实现决策树。以下是一个基本的实现示例：

from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
from sklearn import tree
import matplotlib.pyplot as plt

# 加载数据集
iris = load_iris()
X, y = iris.data, iris.target

# 划分数据集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 构建决策树模型
clf = DecisionTreeClassifier(criterion='gini', max_depth=3)
clf.fit(X_train, y_train)

# 预测
y_pred = clf.predict(X_test)

# 可视化决策树
plt.figure(figsize=(12, 8))
tree.plot_tree(clf, filled=True, feature_names=iris.feature_names, class_names=iris.target_names)
plt.show()

决策树的应用

决策树广泛应用于金融、医疗、市场分析等多个领域，如：

信用评分：评估客户的信用风险。
医学诊断：帮助医生进行疾病预测和诊断。
客户分类：根据客户特征进行市场细分。

总结

决策树是一种强大的分类和回归模型，通过树形结构进行决策。其构建过程包括特征选择、数据划分、剪枝等步骤，易于理解和实现，但需注意过拟合和模型稳定性的问题。在实际应用中，可以根据具体场景选择合适的决策树算法和参数设置。

原文地址：https://blog.csdn.net/goTsHgo/article/details/143384020

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

A20红色革命文物征集管理系统
红色革命文物征集管理系统在对开发工具的选择上也很慎重，为了便于开发实现，选择的开发工具为Eclipse，选择的数据库工具为Mysql。以此搭建开发环境实现红色革命文物征集管理系统的功能。其中管理员管理
阅读更多2024-11-09
楼梯区域分割系统：Web效果惊艳
数据集信息展示在本研究中，我们使用了名为“Stairs”的数据集，以改进YOLOv8-seg模型在楼梯区域分割任务中的表现。该数据集专门设计用于训练和评估模型在复杂环境中对楼梯及其周边区域的识别能力。
阅读更多2024-11-09
Java学习教程，从入门到精通，Java修饰符语法知识点及案例代码（23）
Java修饰符用于改变类、方法、变量、接口等元素的行为和可见性。主要分为两大类：访问修饰符和非访问修饰符。
阅读更多2024-11-09
Ubuntu 安装 redis
修改 /etc/redis/redis.conf。
阅读更多2024-11-09
c++程序设计速学笔记2基础数据结构
数组是一种线性数据结构，它存储相同类型的元素的连续内存块。数组的每个元素都有一个索引，用于快速访问和操作数据。然而，由于它不支持随机访问，所以不适合需要频繁访问中间元素的场景。栈（Stack）是一种后
阅读更多2024-11-09
SGD学习器和Adam学习器之间的区别与关系
（随机梯度下降）和（Adaptive Moment Estimation）是两种常用的优化算法，在训练神经网络时，它们都用来最小化损失函数并更新模型参数。尽管它们有相似的目标，但在更新规则和效率上有所
阅读更多2024-11-09
05 SQL炼金术：深入探索与实战优化
Plan Baselines（执行计划基线）是Oracle 11g引入的一种功能，它可以记录并保存SQL语句的历史执行计划，并在后续执行时优先选择这些历史执行计划中性能较好的一个。通过本文的介绍，我们
阅读更多2024-11-09
【MRAN】情感分析中情态缺失问题的多模态重构和对齐网络
为此，我们提出了多模态重构和对齐网络（MRAN）来解决情态缺失问题，特别是缓解由于文本情态缺失而导致的衰退。我们首先提出了多模态嵌入和缺失索引嵌入来指导缺失模态特征的重建。然后，将视觉和听觉特征投射到
阅读更多2024-11-09
windows server2019下载docker拉取redis等镜像并运行项目
指由微软公司开发的“Windows”系列中的“服务器”版本。这意味着它是基于Windows操作系统的，但专门设计用于服务器环境，而不是普通的桌面或个人用户使用。主要用途包括服务器功能、用户和资源管理、
阅读更多2024-11-09
streamlit run的启动参数讲解
当你运行命令时，后面可以带一些参数，用来指定如何运行 Streamlit 应用。下面是。
阅读更多2024-11-09

分类算法——决策树 详解