【机器学习】机器学习中用到的高等数学知识-2.概率论与统计 (Probability and Statistics)

🕗 发布于 2024-11-14 06:50 机器学习 概率论 人工智能 python 统计

概率分布：理解数据的分布特征（如正态分布、伯努利分布、均匀分布等）。
期望和方差：描述随机变量的中心位置和离散程度。
贝叶斯定理：用于推断和分类中的后验概率计算。
假设检验：评估模型的性能和数据显著性。

概率分布

概率分布是描述随机变量可能取值及其对应概率的一种方式。在统计学和概率论中，概率分布广泛用于描述现象的随机性和不确定性。根据随机变量的类型，概率分布分为离散概率分布和连续概率分布。

1. 离散概率分布

离散概率分布适用于离散随机变量（取值为离散数值的随机变量），常见的离散概率分布有：

二项分布：

描述了在 n 次独立试验中某事件 A 成功出现 k 次的概率，假设事件 A 成功的概率是 p，不成功的概率是 1 - p，适用于“是/否”或“成功/失败”类型的事件。

$P(X = k) = \binom{n}{k} p^k (1 - p)^{n - k}$

推导步骤：

定义条件：每次试验是独立的，且事件成功的概率 p 不变。

组合数：在 n 次试验中恰好有 k 次成功，可能的排列有 $\binom{n}{k}$ 种，即 $\binom{n}{k} = \frac{n!}{k!(n-k)!}$ 。

概率计算：每个特定排列中的成功和失败概率相乘得到 $p^k (1 - p)^{n - k}$ 。

最终公式：将组合数和成功排列概率相乘，得到二项分布的概率质量函数（PMF）：

$P(X = k) = \binom{n}{k} p^k (1 - p)^{n - k}$

Python 示例：

展示了在 n = 20 次试验中，成功出现 k 次的概率，当成功概率 p = 0.5。

import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import binom

# 设置 x 值范围
x_binom = np.arange(0, 21)

# 二项分布：n=20, p=0.5
y_binom = binom.pmf(x_binom, n=20, p=0.5)

# 绘制二项分布
plt.figure(figsize=(7, 5))
plt.stem(x_binom, y_binom, linefmt='#FFA700', basefmt=' ')
plt.title("Binomial Distribution (n=20, p=0.5)")
plt.xlabel("k")
plt.ylabel("P(X=k)")
plt.show()

泊松分布：

用于描述单位时间或空间内某事件发生的次数，特别是罕见事件的发生频率。假设事件的发生是稀疏的、独立的，并且单位时间内的事件平均发生次数为 $\lambda$ 。

$P(X = k) = \frac{\lambda^k e^{-\lambda}}{k!}$

推导步骤：

从二项分布入手：泊松分布可以看作二项分布的极限情况，令 $n \to \infty$ 且 $p \to 0$ ，但 $np = \lambda$ 保持不变。

概率计算：应用极限计算

$P(X = k) = \lim_{n \to \infty} \binom{n}{k} p^k (1 - p)^{n - k}$

简化：用 $p = \frac{\lambda}{n}$ 代入并化简，得到

$P(X = k) = \frac{\lambda^k e^{-\lambda}}{k!}$

Python 示例：

描述了单位时间内事件发生 k 次的概率，这里 λ=5。

import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import poisson

# 设置 x 值范围
x_poisson = np.arange(0, 20)

# 泊松分布：λ=5
y_poisson = poisson.pmf(x_poisson, mu=5)

# 绘制泊松分布
plt.figure(figsize=(7, 5))
plt.stem(x_poisson, y_poisson, linefmt='#FFA700', basefmt=' ')
plt.title("Poisson Distribution (λ=5)")
plt.xlabel("k")
plt.ylabel("P(X=k)")
plt.show()

2. 连续概率分布

连续概率分布适用于连续随机变量（取值为连续数值的随机变量）。常见的连续概率分布有：

正态分布：

又称为高斯分布，描述数据在平均值附近集中、呈钟形曲线的分布，适用于许多自然和社会现象。

$f(x) = \frac{1}{\sqrt{2 \pi \sigma^2}} e^{-\frac{(x - \mu)^2}{2 \sigma^2}}$

正态分布描述的是大量独立随机变量和的分布，通常通过中心极限定理推导。

推导步骤：

中心极限定理：假设有一组相互独立的随机变量 $X_1, X_2, \ldots, X_n$ ，每个变量都有相同的均值 $\mu$ 和方差 $\sigma^2$ 。

和的分布：当 n 足够大时，这组随机变量和的分布会接近正态分布，即总和的分布趋近于

$N(n\mu, n\sigma^2)$

标准化：对变量和进行标准化处理，使均值为 0、方差为 1，得到标准正态分布的密度函数：

$f(x) = \frac{1}{\sqrt{2 \pi \sigma^2}} e^{-\frac{(x - \mu)^2}{2 \sigma^2}}$

Python 示例：

显示了均值 μ=0 和标准差 σ=1 的正态分布。

import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import norm

# 设置 x 值范围
x_norm = np.linspace(-4, 4, 400)

# 正态分布：μ=0, σ=1
y_norm = norm.pdf(x_norm, loc=0, scale=1)

# 绘制正态分布图
plt.figure(figsize=(7, 5))
plt.plot(x_norm, y_norm, color="blue")
plt.title("Normal Distribution (μ=0, σ=1)")
plt.xlabel("x")
plt.ylabel("f(x)")
plt.show()

均匀分布：

所有取值的概率相同。在区间 [a, b] 上的均匀分布表示为：

$f(x) = \frac{1}{b - a} \quad (a \leq x \leq b)$

均匀分布假设在区间 [a, b] 上每个值出现的概率相等。

推导步骤：

常数密度：因为在 [a, b] 的每个值出现的概率相等，密度函数 f(x) 应为常数。

积分为 1：因为总概率为 1，所以积分 $\int_a^b f(x) dx = 1$ 。

求出密度：解得 $f(x) = \frac{1}{b - a}$ ，因此均匀分布的密度函数为：

$f(x) = \frac{1}{b - a}, \quad a \leq x \leq b$

Python 示例：

在区间 [0, 1] 上的概率密度为常数。

import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import uniform

# 设置 x 值范围
x_uniform = np.linspace(0, 1, 400)

# 均匀分布：a=0, b=1
y_uniform = uniform.pdf(x_uniform, loc=0, scale=1)

# 绘制均匀分布
plt.figure(figsize=(7, 5))
plt.plot(x_uniform, y_uniform, color="red")
plt.title("Uniform Distribution (a=0, b=1)")
plt.xlabel("x")
plt.ylabel("f(x)")
plt.grid(color="lightgray", linewidth=0.5)
plt.show()

指数分布：

描述某事件发生后到下一次发生的时间间隔，常用于寿命分析或队列论中。

$f(x) = \lambda e^{-\lambda x} \quad (x \geq 0)$

指数分布描述了事件发生后的等待时间，假设事件发生的速率为 λ。

推导步骤：

无记忆性：指数分布是唯一满足“无记忆性”特性的连续分布，即条件概率 $P(X > s + t \mid X > t) = P(X > s)$ 对所有 $s, t \geq 0$ 成立。

微分方程：根据无记忆性，可以推导出累计分布函数 $F(x) = 1 - e^{-\lambda x}$ 的密度函数为其导数：

$f(x) = \lambda e^{-\lambda x}$

Python 示例：

表示事件发生的时间间隔概率密度函数，参数为 λ=1。

import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import expon

# 设置 x 值范围
x_expon = np.linspace(0, 4, 400)

# 指数分布：λ=1
y_expon = expon.pdf(x_expon, scale=1)

# 绘制指数分布
plt.figure(figsize=(7, 5))
plt.plot(x_expon, y_expon, color="green")
plt.title("Exponential Distribution (λ=1)")
plt.xlabel("x")
plt.ylabel("f(x)")
plt.grid(color="lightgray", linewidth=0.5)
plt.show()

概率密度函数与概率质量函数

对于离散随机变量，概率通过**概率质量函数（PMF）**表示，它赋予每一个可能取值一个概率。
对于连续随机变量，概率通过**概率密度函数（PDF）**表示，具体概率是通过积分计算的，反映在某个区间上的概率。

概率分布的可视化

不同类型的概率分布具有不同的形状，通过绘制分布的图形可以更好地理解数据的分布情况。

期望和方差

期望和方差是统计学和概率论中的两个重要概念，用于描述随机变量的特性：

1. 期望 (Expectation)

期望，也称为均值，反映随机变量取值的“平均水平”。对于一个离散随机变量 X 和连续随机变量 X，其期望的计算公式如下：

离散型随机变量 X 的期望：
$E(X) = \sum_{i} x_i \cdot P(X = x_i)$
其中， $x_i$ 是 X 的每个可能值， $P(X = x_i)$ 是相应的概率。
连续型随机变量 X 的期望：
$E(X) = \int_{-\infty}^{\infty} x \cdot f(x) \, dx$
其中，f(x) 是随机变量 X 的概率密度函数 (PDF)。

2. 方差 (Variance)

方差衡量随机变量取值的分散程度。它描述了随机变量与其期望之间的距离。方差越大，数据的分散性越强。方差公式如下：

离散型随机变量 X 的方差：
$\text{Var}(X) = E[(X - E(X))^2] = \sum_{i} (x_i - E(X))^2 \cdot P(X = x_i)$
连续型随机变量 X 的方差：
$\text{Var}(X) = E[(X - E(X))^2] = \int_{-\infty}^{\infty} (x - E(X))^2 \cdot f(x) \, dx$

直观理解

期望：可以看作是“中心值”，即随机变量在其概率分布下的加权平均。
方差：描述随机变量的“离散程度”，即变量值偏离期望的程度。

Python图解

以下代码演示了正态分布下的期望和方差计算，并生成正态分布图形来说明数据的集中趋势与分散程度。

上图展示了一个正态分布的概率密度函数：

红色虚线表示期望（均值）位置，即 μ=0。
蓝色阴影区域表示方差范围（±1 标准差，σ=1）。这个范围包含了数据集中度的约 68%，反映了数据在期望周围的分布情况。

import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import norm

# 设置正态分布参数
mu = 0      # 期望
sigma = 1   # 标准差
x = np.linspace(mu - 4*sigma, mu + 4*sigma, 400)  # x 轴的范围
y = norm.pdf(x, mu, sigma)  # 正态分布概率密度

# 绘制正态分布图
plt.figure(figsize=(8, 5))
plt.plot(x, y, label="Normal Distribution (μ=0, σ=1)", color='#FFA700')
plt.axvline(mu, color='red', linestyle='--', label='Mean (μ)')
plt.fill_between(x, y, where=((x > mu - sigma) & (x < mu + sigma)), color='lightblue', alpha=0.5, label='Variance Range (±σ)')
plt.title("Normal Distribution with Mean and Variance Indication")
plt.xlabel("x")
plt.ylabel("Probability Density")
plt.legend()
plt.grid(color="lightgray", linestyle="--", linewidth=0.5)
plt.show()

贝叶斯定理

贝叶斯定理（Bayes' Theorem）是概率论中的一个重要公式，用于描述在已知某些先验信息条件下，计算一个事件发生的概率。它为我们提供了如何利用先验知识更新概率的规则，尤其在数据不足或不确定的情况下非常有效。贝叶斯定理的公式如下：

$P(A | B) = \frac{P(B | A) \cdot P(A)}{P(B)}$

其中：

P(A | B) 是在事件 B 发生的条件下，事件 A 发生的后验概率（posterior probability）。
P(B | A) 是在事件 A 发生的条件下，事件 B 发生的似然概率（likelihood）。
P(A) 是事件 A 的先验概率（prior probability），表示我们在未考虑 B 的情况下对 A 的相信程度。
P(B) 是事件 B 的边际概率（marginal probability），表示 B 独立发生的概率。

贝叶斯定理的直观解释

贝叶斯定理描述了我们如何在观察到新的证据 B 后，对事件 A 的概率进行更新。比如，在医学诊断中，如果我们知道某种病的发病率 P(A)，并且知道病人在病发时会表现出的症状 P(B | A)，当病人展示出症状 B 时，我们可以通过贝叶斯定理计算病人患病的概率 P(A | B)。

贝叶斯定理的推导

从条件概率的定义可以得出贝叶斯定理。根据条件概率的定义，我们有：

$P(A | B) = \frac{P(A \cap B)}{P(B)}$
$P(B | A) = \frac{P(A \cap B)}{P(A)}$

将上面两个式子中关于 $P(A \cap B)$ 的等式进行相等处理，得到：

$P(A | B) \cdot P(B) = P(B | A) \cdot P(A)$

两边同时除以 P(B)，得出贝叶斯定理的公式：

$P(A | B) = \frac{P(B | A) \cdot P(A)}{P(B)}$

贝叶斯定理的应用示例

贝叶斯定理广泛应用于医学诊断、天气预测、机器学习、自然语言处理等领域。例如，假设我们想知道在有症状 B 的情况下患病 A 的概率，并且已知：

P(A) = 0.01：患病的先验概率。
P(B | A) = 0.8：患病时出现症状的概率。
P(B) = 0.1：出现症状的总体概率。

通过贝叶斯定理可得：

$P(A | B) = \frac{P(B | A) \cdot P(A)}{P(B)} = \frac{0.8 \times 0.01}{0.1} = 0.08$

因此，在有症状 B 的条件下，患病的概率为 8%。

为了直观展示贝叶斯定理，我们可以用 Python 实现一个简单的计算，并通过图表展示后验概率如何在不同条件下变化。

在示例中，我们设定：

事件 A：某人患病。
事件 B：检测结果呈阳性。

假设我们有以下参数：

P(A)：患病的先验概率。
P(B | A)：患病的情况下测试阳性的概率（测试的灵敏度）。
$P(B | \neg A)$ ：不患病的情况下测试阳性的概率（测试的误报率）。

我们将计算在不同的先验概率 P(A) 下，后验概率 P(A | B) 的变化情况。

Python 实现代码

import numpy as np
import matplotlib.pyplot as plt

# 设置已知参数
P_B_given_A = 0.99  # 患病时阳性的概率（灵敏度）
P_B_given_not_A = 0.05  # 不患病时阳性的概率（误报率）

# 设置患病的先验概率范围
P_A_values = np.linspace(0.001, 0.1, 100)  # 假设先验概率从 0.1% 到 10%
P_B_values = P_B_given_A * P_A_values + P_B_given_not_A * (1 - P_A_values)  # 计算 P(B)

# 使用贝叶斯定理计算后验概率 P(A | B)
P_A_given_B = (P_B_given_A * P_A_values) / P_B_values

# 绘制后验概率随先验概率变化的图像
plt.figure(figsize=(10, 6))
plt.plot(P_A_values, P_A_given_B, label=r'$P(A | B)$')
plt.xlabel("Prior Probability P(A)")
plt.ylabel("Posterior Probability P(A | B)")
plt.title("Bayesian Inference: Posterior Probability P(A | B) vs. Prior P(A)")
plt.grid()
plt.legend()
plt.show()

解释

此代码将计算不同先验概率 P(A) 下的后验概率 P(A | B)。图表中展示了在测试呈阳性的情况下，患病概率随着初始先验概率的变化而变化。

假设检验

假设检验（Hypothesis Testing）是统计学中用于验证数据是否支持某一假设的一种方法。它的核心在于提出一个假设（称为 零假设 $H_0$ ）并通过数据进行检验，看是否有足够证据拒绝它，从而支持一个对立的假设（称为 备择假设 $H_1$ ）。

假设检验的步骤

提出假设：假设检验首先提出两个假设：
- 零假设（ $H_0$ ）：通常表示没有效应或差异，例如样本均值等于总体均值。
- 备择假设（ $H_1$ ）：表示我们要验证的结论，例如样本均值不同于总体均值。
选择显著性水平（α）：显著性水平是检验犯 I 型错误（即错误地拒绝 $H_0$ ）的概率，通常选择 0.05 或 0.01。
计算检验统计量：依据所选的检验方法（如 z 检验、t 检验等），计算样本数据的检验统计量。
确定临界值或 p 值：
- 临界值：基于显著性水平确定的统计量边界，如果检验统计量落入临界区域，则拒绝 $H_0$ 。
- p 值：数据在零假设成立条件下的极端程度，若 p ≤ α，则拒绝 $H_0$ 。
做出决策：根据统计量和显著性水平，决定是否拒绝 $H_0$ 。如果拒绝 $H_0$ ，则支持 $H_1$ ；否则，不足以拒绝 $H_0$ 。

假设检验的类型

单样本检验：检验单一样本是否符合某个总体参数（如均值）。
- 例：某产品的平均寿命是否达到 1000 小时。
双样本检验：比较两个样本的参数是否相等。
- 例：两种药物的效果是否有差异。
方差分析（ANOVA）：用于比较多个样本的均值是否相等。
- 例：三个班级的平均成绩是否有显著差异。
卡方检验：用于检验分类数据的独立性或拟合度。
- 例：调查男女消费者对某品牌的偏好是否独立。

假设检验的示例（Python）

假设我们要测试某班级学生的平均成绩是否等于全国平均成绩 70 分，我们可以使用单样本 t 检验进行测试：

import scipy.stats as stats

# 样本数据
sample_scores = [72, 69, 78, 65, 74, 68, 73, 75, 70, 76]
population_mean = 70  # 全国平均成绩

# t 检验
t_stat, p_value = stats.ttest_1samp(sample_scores, population_mean)
alpha = 0.05

print(f"t 统计量: {t_stat}")
print(f"p 值: {p_value}")

if p_value < alpha:
    print("拒绝零假设：班级平均成绩与全国平均成绩有显著差异。")
else:
    print("不能拒绝零假设：班级平均成绩与全国平均成绩无显著差异。")

t 统计量: 1.5811388300841895
p 值: 0.14830470736655946
不能拒绝零假设：班级平均成绩与全国平均成绩无显著差异。

在这里，代码将输出 p 值，并与显著性水平 α=0.05 比较，帮助我们判断是否拒绝零假设。

拓展内容

【机器学习】数学知识：标准差，方差，协方差，平均数，中位数，众数-CSDN博客

原文地址：https://blog.csdn.net/IT_ORACLE/article/details/143728709

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：鸿蒙next版开发：音频并发策略扩展(ArkTS)
下一篇：WebRTC API分析

Python高级编程模式和设计模式
【代码】Python高级编程模式和设计模式。
阅读更多2024-11-15
【代码随想录】刷题记录(29)-用栈实现队列
思路其实很简单，有点像那种小学益智游戏，比如那种给两个箱子，花几步把最下面的砖块搬出来的游戏。这道题其实就是类似这种动作，因为栈是遵循“先入后出”的原则，所以如果要拿出最先入栈stack_in的元素（
阅读更多2024-11-15
Jdbc学习笔记（四）--PreparedStatement对象、sql攻击（安全问题）
在需要用户输入的地方，用户输入的是SQL语句的片段，最终用户输入的SQL片段与我们DAO中写的SQL语句合成一个完整的SQL语句！例如用户在登录时输入的用户名和密码都是为SQL语句的片段！所以，建议大
阅读更多2024-11-15
Redis简介、数据结构、高性能读写、持久化机制、分布式架构
Redis简介、数据结构、高性能读写、持久化机制、分布式架构
阅读更多2024-11-15
扩散模型生成 360度场景
扩散模型生成 360度场景
阅读更多2024-11-15
css文字间距撑满横向距离
【代码】css文字间距撑满横向距离。
阅读更多2024-11-15
Python常用魔术方法（学习笔记）
Python中常用魔术方法的使用。
阅读更多2024-11-15
如何在 Ubuntu 上安装 RStudio IDE（R语言集成开发环境） ?
RStudio 是一个功能强大的 R 语言集成开发环境(IDE)，R 是一种主要用于统计计算和数据分析的编程语言。任何从事数据科学项目或任何其他涉及 R 的类似任务的人，RStudio 都可以使您的工
阅读更多2024-11-15
开源对象存储新选择：在Docker上部署MinIO并实现远程管理
开源对象存储新选择：在Docker上部署MinIO并实现远程管理
阅读更多2024-11-15
Hot100 42接雨水
根据题目描述，雨水总和就是蓝色方块加起来的总和。怎么思路很简单，为了不让水溢出，那么两边只能取最短的一截。根据当前柱子所处的位置，算出前面最高的和后面最高的柱子（因为水是流动的），这样求最小的柱子长度
阅读更多2024-11-15

【机器学习】机器学习中用到的高等数学知识-2.概率论与统计 (Probability and Statistics)

概率分布

1. 离散概率分布

二项分布：

推导步骤：

Python 示例：

泊松分布：

推导步骤：

Python 示例：

2. 连续概率分布

正态分布：

推导步骤：

Python 示例：

均匀分布：

推导步骤：

Python 示例：

指数分布：

推导步骤：

Python 示例：

概率密度函数与概率质量函数

概率分布的可视化

期望和方差

1. 期望 (Expectation)

2. 方差 (Variance)

直观理解

Python图解

贝叶斯定理

贝叶斯定理的直观解释

贝叶斯定理的推导

贝叶斯定理的应用示例

Python 实现代码

解释

假设检验

假设检验的步骤

假设检验的类型

假设检验的示例（Python）

拓展内容

相关文章