机器学习 - 信息增益

🕗 发布于 2024-07-21 08:52 机器学习 人工智能

信息增益（Information Gain）

信息增益是衡量在特征选择过程中一个特征对数据集分类能力提升的指标。在构建决策树（如ID3和C4.5算法）时，信息增益用于选择最佳的特征来划分数据集。信息增益基于熵的概念，通过减少数据集的不确定性来衡量特征的重要性。

熵（Entropy）

熵是信息理论中的一个概念，用于衡量系统的无序程度或不确定性。在分类问题中，熵可以用来表示数据集的纯度。熵的定义如下：

$\sum_{i=1}^{n} p_i \log_2(p_i)$
其中：

$H (D)$ 是数据集 $D$ 的熵。
$p_i$ 是数据集中第 $i$ 类样本所占的比例。
$n$ 是类别的总数。

条件熵（Conditional Entropy）

条件熵衡量在给定特征 $A$ 的条件下数据集 $D$ 的不确定性。条件熵的定义如下：

$\sum_{v \in \text{Values}(A)} \frac{|D_v|}{|D|} H(D_v)$

其中：

$\text{Values}(A)$ 是特征 $A$ 的所有可能取值。
$D_v$ 是数据集中特征 $A$ 取值为 $v$ 的子集。
$∣ D ∣$ 是数据集 $D$ 的样本总数。
$D_v|$ 是子集 $D_v$ 的样本总数。

熵值和基尼系数是两种不同的概念，尽管它们都可以用来衡量不确定性或不纯度，但它们的计算方法和应用领域有所不同。下面详细解释两者：

基尼系数（Gini Index）

基尼系数，或者称为基尼不纯度，是另一种衡量分类问题中数据不纯度的方法。它的定义如下：

$\sum_{i=1}^{n} P(x_i)^2$

其中：

$G (X)$ 是随机变量 $X$ 的基尼系数。
$P(x_i)$ 是事件 $x_i$ 发生的概率。

在机器学习中，基尼系数通常用于决策树算法中的CART（分类与回归树）模型，用来选择最佳的特征进行数据划分。基尼系数越小，数据集的纯度越高。

熵与基尼系数的区别

定义和计算方法：
- 熵是通过概率的对数计算得出的。
- 基尼系数是通过概率的平方和计算得出的。
应用领域：
- 熵主要用于信息增益的计算，常见于ID3和C4.5决策树算法。
- 基尼系数常用于CART决策树算法。
特性：
- 熵能够更细腻地刻画不确定性，考虑了事件发生的概率及其对数。
- 基尼系数计算更简单，直接反映数据的纯度。

示例

假设有一个数据集，其中包含两类数据，类别分别为A和B。

类别A的概率 (P(A) = 0.6)
类别B的概率 (P(B) = 0.4)

则熵和基尼系数的计算如下：

熵的计算

$\log_2 0.6 + 0.4 \log_2 0.4) \approx 0.97095$

基尼系数的计算

$G(X) = 1 - (0.6^2 + 0.4^2) = 1 - (0.36 + 0.16) = 1 - 0.52 = 0.48$

从上述计算可以看出，虽然熵和基尼系数都在一定程度上反映了数据的不纯度，但它们的值和含义有所不同。

熵和基尼系数都是衡量数据不纯度的重要指标，但它们的计算方法和应用场景有所不同。熵强调信息的不确定性，适用于信息增益的计算，而基尼系数则更加直接地反映了数据的纯度，常用于CART算法中。

信息增益（Information Gain）

信息增益表示通过特征 $A$ 划分数据集 $D$ 后，数据集 $D$ 的熵减少的程度。信息增益的定义如下：

$I G (D, A) = H (D) - H (D ∣ A)$

其中：

$I G (D, A)$ 是特征 $A$ 对数据集 $D$ 的信息增益。
$H (D)$ 是数据集 $D$ 的熵。
$H (D ∣ A)$ 是在特征 $A$ 的条件下数据集 $D$ 的条件熵。

信息增益的计算步骤

计算数据集的熵 $H (D)$ ：
首先计算整个数据集的熵，表示当前数据集的不确定性。
计算特征 $A$ 的条件熵 $H (D ∣ A)$ ：
根据特征 $A$ 的取值，将数据集划分为若干子集，然后计算每个子集的熵，并加权求和得到条件熵。
计算信息增益 $I G (D, A)$ ：
用数据集的熵减去条件熵，得到信息增益。

示例

假设有一个简单的数据集如下：

天气	玩耍
晴天	是
阴天	是
雨天	否
晴天	是
晴天	否
阴天	否
阴天	是
雨天	否

我们需要计算“天气”特征的信息增益。

计算数据集的熵 $H (D)$ ：

$-\left(\frac{4}{8} \log_2 \frac{4}{8} + \frac{4}{8} \log_2 \frac{4}{8}\right) = 1$
2. 计算特征“天气”的条件熵 $H(D|\text{天气})$ ：

$H(D|\text{天气}) = \sum_{v \in \{\text{晴天, 阴天, 雨天}\}} \frac{|D_v|}{|D|} H(D_v)$

其中：

$|D_{\text{晴天}}| = 3$ ，且 $H(D_{\text{晴天}}) = -\left(\frac{2}{3} \log_2 \frac{2}{3} + \frac{1}{3} \log_2 \frac{1}{3}\right) \approx 0.918$
$|D_{\text{阴天}}| = 3$ ，且 $H(D_{\text{阴天}}) = -\left(\frac{2}{3} \log_2 \frac{2}{3} + \frac{1}{3} \log_2 \frac{1}{3}\right) \approx 0.918$
$|D_{\text{雨天}}| = 2$ ，且 $H(D_{\text{雨天}}) = -\left(0 \log_2 0 + 1 \log_2 1\right) = 0$

$H(D|\text{天气}) = \left(\frac{3}{8} \times 0.918 + \frac{3}{8} \times 0.918 + \frac{2}{8} \times 0\right) \approx 0.688$

计算信息增益 $\text{天气})$ ：

$\text{天气}) = H(D) - H(D|\text{天气}) = 1 - 0.688 = 0.312$

总结

信息增益通过减少数据集的不确定性来选择特征，选择信息增益最大的特征作为划分标准。它在构建决策树的过程中起到了重要作用，有助于选择最能区分数据的特征。

原文地址：https://blog.csdn.net/L6666688888/article/details/140577356

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：WARNING: The Nouveau kernel driver is currently in use by your system. 处理方法
下一篇：正则表达式的个性化定制：在Perl中实现自定义操作符

2024年网络安全（黑客技术）三个月自学手册
网络安全可以基于攻击和防御视角来分类，我们经常听到的 “红队”、“渗透测试” 等就是研究攻击技术，而“蓝队”、“安全运营”、“安全运维”则研究防御技术。走安全行业的工程方向的，技术上面其实有很大的重叠
阅读更多2024-11-15
数据结构Python版
2.3.3 双链表双链表和链表一样，只不过每个节点有两个链接——一个指向后一个节点，一个指向前一个节点。此外，除了第一个节点，双链表还需要记录最后一个节点。每个结点为DLinkNode类对象，包括存储
阅读更多2024-11-15
连接数据库导出数据库信息支持excel pdf html markdown
1. java -jar运行后连接数据库即可，支持多种数据库。2.支持多种导出格式。
阅读更多2024-11-15
【解决】Layout 下创建槽位后，执行 Image 同步槽位位置后表现错误的问题。
开发平台：Unity 6.0编程语言：CSharp编程平台：Visual Studio 2022。
阅读更多2024-11-15
乐理的学习（简谱过渡五线谱）
调号在五线谱开头标注多个“♯”或“♭”每个“♯”或“♭”对应一个音符位置的升降，比如：C大调（无升降）是自然大调的基础形式，不需要额外调号。G大调：在调号中添加一个“F♯”，表示所有的F都要弹F♯。D
阅读更多2024-11-15
CSS回顾-颜色单位详解
本文介绍了 CSS 中的颜色单位相关知识。包括颜色名称、十六进制颜色值、RGB、RGBA、HSL、HSLA 等颜色单位的表示方式、特点及使用场景。还阐述了颜色单位之间（颜色名称与十六进制、十六进制与
阅读更多2024-11-15
Spring Boot中集成Redis与MySQL
用途：将键或简单的值序列化为字符串。适用场景：通常用于键的序列化，确保键在 Redis 中以字符串存储，以便于直接查看和管理。用途：将对象序列化为 JSON 格式的字符串，并支持 JSON 反序列化回
阅读更多2024-11-15
linux配置nginx
状态如果是Active: active (running)则是正常的。
阅读更多2024-11-15
C03S04-Linux网络之软件仓库、SSH和NFS
SSH是一种安全通道协议，主要用于远程登录到服务器、执行远程命令、传输文件以及管理服务器等。默认的端口号是TCP/22。NFS（网络文件系统，Network File System）是一种件系统协议，
阅读更多2024-11-15
无人机飞手在保家卫国上重要性技术详解
无人机飞手通过操作无人机上的通信设备，可以将侦察到的情报信息及时传输给指挥系统，同时也可以接收指挥系统的指令进行任务调整。无人机飞手经过专业培训，不仅掌握了无人机在不同气候、地形条件下的飞行技巧，还具
阅读更多2024-11-15

机器学习 - 信息增益

信息增益（Information Gain）

熵（Entropy）

条件熵（Conditional Entropy）

基尼系数（Gini Index）

熵与基尼系数的区别

示例

熵的计算

基尼系数的计算

信息增益（Information Gain）

信息增益的计算步骤

示例

总结

相关文章