【AI知识】距离度量和相似性度量的常见算法

🕗 发布于 2024-10-17 22:52 人工智能 算法

本文介绍一些AI中常见的距离度量和相似性度量算法：

1. 欧几里得距离（Euclidean Distance）

欧几里得距离是最常见的距离度量方法，用来计算两个向量之间的“直线距离”，也被成为L2范数。

公式如下，其中 $x$ 和 $y$ 是两个n维向量， $x_i$ 和 $y_i$ 分别是它们的第 $i$ 个分量。
在这里插入图片描述
应用示例： 在图像识别或聚类算法（如K-Means）中，欧几里得距离常用于度量数据点之间的相似性。

2. 曼哈顿距离（Manhattan Distance）

曼哈顿距离也称为“L1距离”或“城市街区距离”，它是两个向量之间的绝对坐标差值之和。
在这里插入图片描述
应用示例： 在图像处理中，可以将图像的像素值表示为向量，通过计算不同图像像素向量之间的曼哈顿距离，衡量图像的相似性。

3. 余弦相似度（Cosine Similarity）

余弦相似度衡量的是两个向量之间的夹角余弦值，用于评估两个向量在方向上的相似性。

公式如下，其中 $\cdot y$ 表示向量的点积， $∥ x ∥$ 和 $∥ y ∥$ 是向量的范数（有L1范数，即曼哈顿距离，L2范数，即欧几里得距离），（即向量的长度）。计算出的余弦相似性值介于 [−1,1] 之间，值越接近1，两个向量的方向越相似，值越接近-1，则表示两个向量的方向越相反，值为0则表示它们是正交的（即完全不相似）。
应用示例： 在自然语言处理（NLP）中，将文本表示为词向量，通过计算不同文本向量之间的余弦相似度，可衡量文本的语义相似性。

4. 闵可夫斯基距离（Minkowski Distance）

闵可夫斯基距离是欧几里得距离和曼哈顿距离的广义形式，参数 $p$ 控制距离计算的形式。当 $p = 1$ 时，它是曼哈顿距离；当 $p = 2$ 时，它是欧几里得距离。
在这里插入图片描述
应用示例： 闵可夫斯基距离在需要调整距离度量灵活性时使用广泛。

5. 切比雪夫距离（Chebyshev Distance）

切比雪夫距离是向量分量之间最大差值的度量，用于衡量两个向量在一个维度上的最大变化。
在这里插入图片描述
应用示例： 切比雪夫距离常用于棋盘上棋子的移动问题（如国际象棋中的国王），因为它考虑的是最大一步距离。

6. 马氏距离（Mahalanobis Distance）

马氏距离（Mahalanobis Distance）是一种距离的度量，可以看作是欧氏距离的一种修正，它考虑了各个维度的不同尺度，还考虑了数据的相关性，即协方差结构。

一个点和总体数据集之间的马氏距离：

两个点之间的马氏距离：

应用示例： 马氏距离在异常检测和聚类算法中使用，特别是在数据具有不同尺度和相关性的情况下。

7. 汉明距离（Hamming Distance）

汉明距离用于计算两个等长向量（通常是二进制向量）中不相同位置的个数。

公式：
其中， $I(x_i \neq y_i)$ 为指示函数，当 $x_i$ 和 $y_i$ 不相等时值为1，否则为0。

应用示例： 汉明距离常用于衡量两个字符串或二进制序列之间的差异，广泛用于纠错码和信息编码中。

8. Jaccard系数（Jaccard Index）

Jaccard系数（Jaccard Index）是衡量两个集合相似性的一种常用指标。它的定义是两个集合交集的大小与两个集合并集的大小之比。Jaccard系数的值范围从0到1，0表示完全不相似，1表示完全相似。
在这里插入图片描述
应用示例： 在自然语言处理和信息检索中，Jaccard系数常用于比较文档的相似性，尤其是在处理词袋模型（Bag of Words）时。

9.什么是点积？

点积（dot product），也叫内积（inner product），是两个向量之间的一种运算，通常用于衡量两个向量的相似性或相关性。

点积的定义：
在这里插入图片描述 点积的几何解释：

应用示例： 在机器学习和自然语言处理中，点积常用于衡量向量之间的相似性，尤其是在计算余弦相似度时。两个向量越相似，它们的点积越大。

原文地址：https://blog.csdn.net/qq_45791939/article/details/143027477

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：FreeRTOS - 信号量
下一篇：大数据与人工智能在金融风险控制中的应用

【linux】进程状态与优先级
🔥个人主页Quitecoder🔥linux笔记仓。
阅读更多2024-10-18
一款快速搭建AI知识库的系统，快速建立AI知识库、帮助中心、FAQs、SOPs、说明书、企业博客（附源码）
一款快速搭建AI知识库的系统，拥有强大的功能，包括快速精准的知识检索、灵活定制的文档系统以及AI智-能搜索。
阅读更多2024-10-18
开发中众多框架的个人理解,Unity设计模式，MVC,MVVM框架
在软件开发中，架构模式是设计和组织代码的重要方法。本文将详细介绍三种流行的架构模式：ECS（Entity-Component-System）、MVC（Model-View-Controller）和MV
阅读更多2024-10-18
【vivado】vivado联合modelsim仿真
vivado联合modelsim仿真配置方法
阅读更多2024-10-18
基于深度学习的设备异常检测与预测性维护
基于深度学习的设备异常检测与预测性维护利用智能算法帮助工业企业提升设备的可靠性，降低停机时间和维护成本。随着深度学习技术的不断发展，其在工业自动化中的应用潜力将进一步得到挖掘。
阅读更多2024-10-18
linux grep 问题： Binary file (standard input) matches
在 Linux 中使用grep命令搜索文件时，如果遇到二进制文件（如可执行文件、图片、压缩文件等），grep默认会输出一条警告信息，比如 “Binary file (standard input) m
阅读更多2024-10-18
思迅商云8四级分类
-请确认在系统未正式使用前执行，否则商品类别可能存在关联性问题，正常情况下商品类别是3级2位，超过3级类别，只支持每级1位编码。--以下语句是将商云8转换成6级1位编码。--修改为6级类别，每位编码1
阅读更多2024-10-18
十月编程语言排行榜~
编程语言排行榜分析及未来展望！
阅读更多2024-10-18
【Java 并发编程】阻塞队列与仿真餐厅
生产者和消费者彼此之间不直接通讯，而通过阻塞队列来进行通讯，所以生产者生产完数据之后不用等待消费者处理，直接扔给阻塞队列，消费者不找生产者要数据，而是直接从阻塞队列里取，阻塞队列就相当于一个缓冲区，平
阅读更多2024-10-18
嵌入式开发选硬件还是软件？
然而，单纯的数字硬件工作，如原理图绘制、PCB设计等，，这类工作主要涉及熟悉各种接口和芯片使用，通常在1-3年内就能基本掌握，后续发展可能面临瓶颈，相对来说成长空间较小，也更容易被替代。硬件项目的开发
阅读更多2024-10-18

【AI知识】距离度量和相似性度量的常见算法

相关文章