【机器学习】机器学习中用到的高等数学知识-7.信息论 (Information Theory)

🕗 发布于 2024-11-20 17:51 机器学习 人工智能

熵 (Entropy)：用于评估信息的随机性，常用于决策树和聚类算法。
交叉熵 (Cross-Entropy)：用于衡量两个概率分布之间的差异，在分类问题中常用。

信息论作为处理信息量和信息传输的数学理论，在机器学习中具有广泛的应用。本文将围绕熵（Entropy）和交叉熵（Cross-Entropy），探讨它们的定义、公式推导、应用场景及代码实现。

1. 熵 (Entropy)

1.1 定义

熵衡量信息的不确定性或随机性。它可以理解为“信息的平均量”，即某一分布下每个事件的信息量的期望值。

1.2 数学公式

对于一个离散随机变量 X，取值为 $x_1, x_2, \ldots, x_n$ ，其熵定义为：

$H(X) = -\sum_{i=1}^{n} P(x_i) \log P(x_i)$

其中：

$P(x_i)$ 是事件 $x_i$ 的概率；
log 通常以 2 为底（信息量以比特为单位）或以 e 为底（信息量以 nat 为单位）。

1.3 推导过程

熵的来源可以从信息量（Information Content）定义出发：

$I(x_i) = -\log P(x_i)$

熵是信息量的加权平均值，因而有：

$H(X) = \mathbb{E}[I(x)] = -\sum_{i=1}^n P(x_i) \log P(x_i)$

1.4 应用场景

决策树算法：选择分裂点时使用熵减少量（信息增益）。
聚类算法：评估聚类后类别分布的随机性。
语言模型：评估文本序列的不确定性。

1.5 熵的Python代码实现

import numpy as np

# 定义熵函数
def entropy(p):
    return -np.sum(p * np.log2(p))

# 示例概率分布
p = np.array([0.5, 0.25, 0.25])
print("熵:", entropy(p))

熵: 1.5

1.6 图示

熵的图示展示了单一事件概率分布变化时的熵值变化。

import matplotlib.pyplot as plt
import numpy as np

p = np.linspace(0.01, 0.99, 100)
entropy_values = -p * np.log2(p) - (1 - p) * np.log2(1 - p)

plt.plot(p, entropy_values, label='Entropy')
plt.xlabel('P(x)')
plt.ylabel('H(X)')
plt.title('Entropy vs Probability')
plt.legend()
plt.grid()
plt.show()

2. 交叉熵 (Cross-Entropy)

2.1 定义

交叉熵用于衡量两个概率分布之间的差异。给定真实分布 P 和预测分布 Q，其定义为：

$H(P, Q) = -\sum_{i=1}^n P(x_i) \log Q(x_i)$

当 P 和 Q 相等时，交叉熵退化为熵。

2.2 推导过程

交叉熵的来源是 Kullback-Leibler (KL) 散度：

$D_{KL}(P || Q) = \sum_{i=1}^n P(x_i) \log \frac{P(x_i)}{Q(x_i)}$

其中：

$H(P, Q) = H(P) + D_{KL}(P || Q)$

说明交叉熵包含了真实分布的熵和两分布之间的 KL 散度。

2.3 应用场景

分类问题：在机器学习中作为目标函数，尤其是多分类问题中的 Softmax 回归。
语言模型：衡量生成模型输出的分布与目标分布的匹配度。
聚类算法：评估聚类后的分布与目标分布的差异。

2.4 交叉熵的Python代码实现

import numpy as np

# 定义交叉熵函数
def cross_entropy(p, q):
    return -np.sum(p * np.log2(q))

# 示例真实分布和预测分布
p = np.array([1, 0, 0])  # 实际类别
q = np.array([0.7, 0.2, 0.1])  # 预测分布
print("交叉熵:", cross_entropy(p, q))

交叉熵: 0.5145731728297583

2.5 图示

交叉熵的图示对比了真实分布和不同预测分布间的差异。

import matplotlib.pyplot as plt
import numpy as np

def cross_entropy(p, q):
    return -np.sum(p * np.log2(q))

p = np.array([1, 0, 0])
q_values = [np.array([0.7, 0.2, 0.1]), np.array([0.4, 0.4, 0.2])]

ce_values = [cross_entropy(p, q) for q in q_values]
labels = ['Q1 (Closer)', 'Q2 (Further)']

plt.bar(labels, ce_values, color=['blue', 'orange'])
plt.title('Cross-Entropy Comparison')
plt.ylabel('Cross-Entropy')
plt.show()

3. 实际案例：分类问题中的交叉熵

在图像分类中，交叉熵是常用的损失函数。对于一个三类分类问题：

真实类别为 [1, 0, 0]。
模型预测的概率分布为 [0.7, 0.2, 0.1]。

交叉熵计算结果为 0.514，比完全随机预测（[1/3, 1/3, 1/3]）的交叉熵小，表明模型预测效果更好。

总结

熵和交叉熵是信息论中的核心概念，其在机器学习中的重要性不可忽视。通过公式理解、代码实现和图示分析，我们可以更好地掌握这些工具，并有效地将其应用于实际问题中。

拓展阅读

【机器学习】数学知识：对数-CSDN博客
 【机器学习】机器学习中用到的高等数学知识-2.概率论与统计 (Probability and Statistics)_机器学习概率-CSDN博客

原文地址：https://blog.csdn.net/IT_ORACLE/article/details/143873299

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：使用ajax-hook修改http请求响应数据，篡改后再返回给正常的程序
下一篇：机器学习的全面解析：从基础到应用

论文阅读——Intrusion detection systems using longshort‑term memory (LSTM)
作者提出的 LSTM 模型能够有效区分正常网络流量和攻击流量。除此之外，模型结合主成分分析（PCA）和互信息作为降维方法。实验结果表明，基于 PCA 的模型（特别是使用2个主成分）在二分类和多分类任务
阅读更多2024-11-21
用源码编译虚幻引擎，并打包到安卓平台
本文详细介绍了如何用源码编译虚幻引擎，并将其打包到安卓平台。
阅读更多2024-11-21
Vue项目开发 element-UI 前端实现 1到10排列选择的按钮
在 Element UI 中，你可以通过来实现按钮的排列选择，例如让用户选择 1 到 10 之间的数字。为了实现这一功能，我们可以使用来动态生成 1 到 10 的按钮，并通过按钮点击事件来更新
阅读更多2024-11-21
Java EE 【知识改变命运】01计算机的一些知识点
计算机一些基础知识
阅读更多2024-11-21
04 —— Webpack打包CSS代码
加载器style-loader：把解析后的css代码插入到DOM。加载器css-loader ：解析css代码。直接引用，不用变量接收。
阅读更多2024-11-21
万能程序补丁工具 C# 源代码详解
万能程序补丁工具程序目的：搜索二进制可执行 EXE 或 DLL 文件分析的特征代码，替换特征代码，达到调试修正目标程序的功能。
阅读更多2024-11-21
【MySQL数据库】C#实现MySQL数据库最简单的查询和执行函数
C#和MySQL数据库是常见的数据交互，标准的查询和执行方法如下，做个记录。
阅读更多2024-11-21
单条推理转批量推理prompt
在每个线程中设置环境变量 CUDA_VISIBLE_DEVICES，以确保每个线程只使用指定的GPU。使用 concurrent.futures.ThreadPoolExecutor 来管理多线程任务
阅读更多2024-11-21
【AIGC】ChatGPT提示词Prompt解析：情感分析，分手后还可以做朋友吗？
【AIGC】在情感博弈中，最重要的是保持清醒的认知和优雅的态度。识别控制话术不是为了对抗，而是为了更好地保护自己的情感自由，实现真正的成长。
阅读更多2024-11-21
pycharm中配置pyqt5
PyQt和wxPython则提供了更多的控件和更强大的功能，适合于需要复杂用户界面的应用程序。pyQt生成的应用程序，引用图片通常是将资源文件装换为 python 文件，然后引用资源文件，而不能直接加
阅读更多2024-11-21