K近邻（K-Nearest Neighbors, KNN）算法中距离度量方式和计算公式

🕗 发布于 2024-10-04 15:04 机器学习 分类 k-近邻算法 人工智能

在K近邻（K-Nearest Neighbors, KNN）算法中，距离度量方式用于计算样本之间的相似性或距离，这是选择“邻居”的基础。常见的距离度量方式有以下几种：

1. 欧氏距离（Euclidean Distance）

欧氏距离是最常用的度量方式之一，用于计算两个样本点之间的“直线”距离。适用于连续数值型特征。

公式为：
$\sqrt{\sum_{i=1}^{n}(x_i - y_i)^2}$
其中， $x_i$ 和 $y_i$ 分别是两个样本 $x$ 和 $y$ 在第 $i$ 个特征上的取值， $n$ 是特征的总数。

示例：
若有两个二维点 $x = (1, 2)$ 和 $y = (4, 6)$ ，则它们的欧氏距离为：
$\sqrt{(1-4)^2 + (2-6)^2} = \sqrt{9 + 16} = \sqrt{25} = 5$

2. 曼哈顿距离（Manhattan Distance）

曼哈顿距离也称为“绝对值距离”或“城市街区距离”，它度量的是两点在各个坐标轴方向上的距离总和，适合网格状布局的数据。

公式为：
$\sum_{i=1}^{n} |x_i - y_i|$

示例：
对同样的点 $x = (1, 2)$ 和 $y = (4, 6)$ ，曼哈顿距离为：
$d (x, y) = ∣1 - 4∣ + ∣2 - 6∣ = 3 + 4 = 7$

3. 闵可夫斯基距离（Minkowski Distance）

闵可夫斯基距离是欧氏距离和曼哈顿距离的泛化形式，通过改变参数 $p$ 可以得到不同的距离度量方式。当 $p = 1$ 时，得到曼哈顿距离；当 $p = 2$ 时，得到欧氏距离。

公式为：
$\left( \sum_{i=1}^{n} |x_i - y_i|^p \right)^{1/p}$

4. 切比雪夫距离（Chebyshev Distance）

切比雪夫距离用于度量任意两个点在某一维度上的最大差值。它适用于某些需要考虑最远距离的情况。

公式为：
$d(x, y) = \max_{i} |x_i - y_i|$

示例：
同样对于 $x = (1, 2)$ 和 $y = (4, 6)$ ，切比雪夫距离为：
$\max(|1 - 4|, |2 - 6|) = \max(3, 4) = 4$

5. 马氏距离（Mahalanobis Distance）

马氏距离是一种考虑了样本分布的距离度量，它通过协方差矩阵来衡量样本的相关性。适合用于处理有相关性的多维特征数据，常用于异常检测。

公式为：
$\sqrt{(x - y)^T S^{-1} (x - y)}$
其中， $S$ 是特征的协方差矩阵， $S^{-1}$ 是协方差矩阵的逆矩阵。

示例：
马氏距离特别适合应用在金融领域，比如股票的价格波动，它们的波动率和协同关系会影响马氏距离的结果。

6. 余弦相似度（Cosine Similarity）

余弦相似度用于衡量两个向量之间的角度，而非距离。适用于高维度稀疏向量（如文本向量化）。它的值在 $[- 1, 1]$ 之间，值越接近 1，说明两个向量越相似。

公式为：
$\text{Cosine Similarity} = \frac{x \cdot y}{\|x\| \|y\|}$
其中， $\cdot y$ 是两个向量的点积， $\|x\|$ 和 $\|y\|$ 分别是向量的模。

7. 汉明距离（Hamming Distance）

汉明距离用于衡量两个等长字符串（或二进制向量）之间不同字符的个数，常用于二值特征或者分类问题。

公式为：
$\sum_{i=1}^{n} \mathbf{1}(x_i \neq y_i)$
其中 $\mathbf{1}(\cdot)$ 表示指示函数，当条件为真时取 1，假时取 0。

示例：
对于二进制字符串 $x = 10101$ 和 $y = 10011$ ，它们的汉明距离为：
$d (x, y) = 1 + 0 + 1 + 0 + 1 = 3$

8. 杰卡德距离（Jaccard Distance）

杰卡德距离用于衡量两个集合之间的相似度。它是基于集合交集和并集的比率，常用于比较文本、集合等离散数据。

杰卡德相似度的公式为：
$\text{Jaccard Similarity} = \frac{|A \cap B|}{|A \cup B|}$
杰卡德距离是相似度的补数：
$\text{Jaccard Similarity}$

示例：
对于两个集合 $A = \{1, 2, 3\}$ 和 $B = \{2, 3, 4\}$ ，它们的杰卡德相似度为：
$\text{Jaccard Similarity} = \frac{|\{2, 3\}|}{|\{1, 2, 3, 4\}|} = \frac{2}{4} = 0.5$
所以杰卡德距离为：
$d (A, B) = 1 - 0.5 = 0.5$

9. 布雷叶距离（Bray-Curtis Distance）

布雷叶距离用于衡量两个样本之间的差异，常用于生态学和环境科学中。其值范围在 $[0, 1]$ 之间。

公式为：
$\frac{\sum_{i=1}^{n} |x_i - y_i|}{\sum_{i=1}^{n} |x_i + y_i|}$

示例：
对于两个样本 $x = (1, 2)$ 和 $y = (3, 4)$ ，它们的布雷叶距离为：
$\frac{|1 - 3| + |2 - 4|}{|1 + 3| + |2 + 4|} = \frac{2 + 2}{4 + 6} = \frac{4}{10} = 0.4$

10. 马氏重合距离（Mahalanobis–Ovchinnikov Distance）

这是马氏距离的扩展，考虑了不同类别的重合性。它广泛用于带有类标签的样本分类问题中。

11. 地球移动距离（Earth Mover’s Distance, EMD）

地球移动距离用于度量两个分布之间的最小“代价”，通过计算将一个分布转化为另一个分布的最小工作量，常用于图像处理和计算机视觉中。

公式通过求解最优传输问题（Optimal Transport Problem）得出。

12. 动态时间规整距离（Dynamic Time Warping, DTW）

DTW 距离用于衡量两个时间序列之间的相似性，允许时间序列进行非线性对齐。广泛用于语音识别和时间序列分析。

13. Canberra距离

Canberra距离在比较两个向量时，通过标准化元素间的差异，能够更好地处理小值和大值。

公式为：
$\sum_{i=1}^{n} \frac{|x_i - y_i|}{|x_i| + |y_i|}$

14. 加权距离（Weighted Distance）

有时候为了体现某些特征对距离计算的重要性，可以给每个特征赋予不同的权重。加权欧氏距离的公式为：
$\sqrt{\sum_{i=1}^{n} w_i (x_i - y_i)^2}$
其中 $w_i$ 是第 $i$ 个特征的权重。

这些距离度量方法适用于不同的数据类型和问题场景。可以根据具体的应用选择合适的度量方式。

原文地址：https://blog.csdn.net/u013172930/article/details/142614363

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：《Linux从小白到高手》理论篇（十二）：深入理解Linux的计划任务/定时任务
下一篇：【基础算法总结】链表篇

The 14th Jilin Provincial Collegiate Programming Contest
【代码】The 14th Jilin Provincial Collegiate Programming Contest。
阅读更多2024-10-05
Excel常用函数
Excel常用函数说明
阅读更多2024-10-05
【Git】克隆主项目，并同时克隆所有子模块
带有箭头的文件夹（）通常表示这是一个 Git 子模块（submodule）。Git 子模块是一种嵌入式的 Git 仓库，它允许你在一个仓库中引用其他的 Git 仓库。换句话说，不是这个项目自身的文件夹
阅读更多2024-10-05
基础算法之滑动窗口--Java实现(上)--LeetCode题解:长度最小的子数组-无重复字符的子串-最大连续1的个数III-将x减到0的最小操作数
滑动窗口。
阅读更多2024-10-05
【Python】Arrow使用指南：轻松管理日期与时间
Arrow 是一个基于 Python 的日期与时间管理库，提供了更人性化和直观的 API 处理时间数据。与 Python 标准库中的 `datetime` 模块相比，Arrow 极大地简化了时间创建、
阅读更多2024-10-05
CANoe_trace介绍以及如何使用C#仿制trace方案介绍
是由Vector Informatik公司开发的一款专业的网络分析与仿真工具，广泛应用于汽车电子系统中的CAN、LIN、FlexRay等多种通信协议的开发、测试与诊断。通过捕捉和分析网络上的数据帧，C
阅读更多2024-10-05
uniapp中实现评分组件，多用于购买商品后，对商品进行评价等场景
uni-rate组件可以根据设定的星星总数，展示用户评分的效果，用户可以通过点击星星或滑动星星的方式进行评分。5、透明度：Uni-rate评级过程和标准具有一定的透明度，投资者和利益相关者可以了解评级
阅读更多2024-10-05
50. GLTF格式简介 (Web3D领域JPG)
GLTF格式是新2015发布的三维模型格式，随着物联网、WebGL、5G的进一步发展，会有越来越多的互联网项目Web端引入3D元素，你可以把GLTF格式的三维模型理解为.jpg、.png格式的图片一样
阅读更多2024-10-05
前端——测试与打包时静态资源引用路径
public路径与绝对路径说明，原理：在Vite中， / 开头的绝对路径默认可以访问到 public/ 目录下的内容，所以 /public/static/home/首页.png 和 /static/h
阅读更多2024-10-05
【网络安全】IP切换绕过2FA身份验证
分析返回的响应时，我发现有效的 OTP 响应比无效的响应稍长，这表明我们成功绕过了2FA验证机制。
阅读更多2024-10-05