机器学习算法中的距离计算方式详解

import math

def euclidean_distance(x, y):
    """
    计算两点之间的欧氏距离。
    
    参数:
    x (list of float): 第一个点的坐标，例如 [x1, x2, x3, ..., xn]。
    y (list of float): 第二个点的坐标，例如 [y1, y2, y3, ..., yn]。
    
    返回:
    float: 两点之间的欧氏距离。
    """
    if len(x) != len(y):
        raise ValueError("Both points must have the same number of dimensions.")
    return math.sqrt(sum((a - b) ** 2 for a, b in zip(x, y)))

# 示例
x = [1.0, 2.0, 3.0]
y = [4.0, 5.0, 6.0]
print("欧氏距离:", euclidean_distance(x, y))

应用场景

欧氏距离在机器学习中有着广泛的应用，尤其是在聚类算法（如K-Means）和分类算法（如K-Nearest Neighbors, KNN）中。它也常用于图像处理和计算机视觉领域，例如在特征匹配和目标识别中。

曼哈顿距离（Manhattan Distance）

原理详解

曼哈顿距离，又称为城市街区距离，它模拟的是在城市网格状街道系统中从一个街区到另一个街区的距离。这种距离度量方式在数学上定义为各维度差值绝对值的总和。曼哈顿距离在计算上比欧氏距离简单，因为它只涉及加减运算。

代码实现

以下是使用Python实现曼哈顿距离计算的代码。这个函数接受两个点的坐标作为输入，并返回它们之间的曼哈顿距离。

def manhattan_distance(x, y):
    """
    计算两点之间的曼哈顿距离。
    
    参数:
    x (list of float): 第一个点的坐标。
    y (list of float): 第二个点的坐标。
    
    返回:
    float: 两点之间的曼哈顿距离。
    """
    if len(x) != len(y):
        raise ValueError("Both points must have the same number of dimensions.")
    return sum(abs(a - b) for a, b in zip(x, y))

# 示例
x = [1.0, 2.0, 3.0]
y = [4.0, 5.0, 6.0]
print("曼哈顿距离:", manhattan_distance(x, y))

应用场景

曼哈顿距离在路径规划和地图导航中非常有用，尤其是在城市环境中，它模拟了从一个地点到另一个地点的实际行走距离。此外，它也在图像处理和模式识别中有所应用，特别是在处理像素值差异时。

闵可夫斯基距离（Minkowski Distance）

原理详解

闵可夫斯基距离是一种更为通用的距离度量方式，它包含了欧氏距离和曼哈顿距离作为特例。通过参数p的不同取值，闵可夫斯基距离可以在欧氏距离（p=2）和曼哈顿距离（p=1）之间变化，并且可以捕捉不同维度之间的依赖关系。

代码实现

以下是使用Python实现闵可夫斯基距离计算的代码。这个函数接受两个点的坐标和一个参数p作为输入，并返回它们之间的闵可夫斯基距离。

def minkowski_distance(x, y, p):
    """
    计算两点之间的闵可夫斯基距离。
    
    参数:
    x (list of float): 第一个点的坐标。
    y (list of float): 第二个点的坐标。
    p (float): 闵可夫斯基距离的参数，p>0。
    
    返回:
    float: 两点之间的闵可夫斯基距离。
    """
    if len(x) != len(y):
        raise ValueError("Both points must have the same number of dimensions.")
    if p <= 0:
        raise ValueError("The parameter p must be greater than 0.")
    return (sum(abs(a - b) ** p for a, b in zip(x, y)) ** (1 / p))

# 示例
x = [1.0, 2.0, 3.0]
y = [4.0, 5.0, 6.0]
p = 3.0  # 可以改变p的值来观察不同效果
print("闵可夫斯基距离 (p=3):", minkowski_distance(x, y, p))

应用场景

闵可夫斯基距离在机器学习中的聚类算法和异常检测中有所应用。通过调整参数p，可以适应不同的数据分布和业务需求，使得算法更加灵活。

马氏距离（Mahalanobis Distance）

原理详解

马氏距离是一种有效度量一个点与一个分布之间距离的方法，它考虑了数据特征之间的相关性和各个特征的尺度。这种距离度量方式比欧氏距离更加鲁棒，因为它考虑了数据的协方差结构。在统计学中，马氏距离用于多变量异常检测和模式识别。

代码实现

以下是使用Python实现马氏距离计算的代码。这个函数接受两个点的坐标和一个协方差矩阵作为输入，并返回它们之间的马氏距离。

import numpy as np

def mahalanobis_distance(x, y, cov):
    """
    计算两点之间的马氏距离。
    
    参数:
    x (list of float): 第一个点的坐标。
    y (list of float): 第二个点的坐标。
    cov (numpy.array): 数据的协方差矩阵。
    
    返回:
    float: 两点之间的马氏距离。
    """
    diff = np.array(x) - np.array(y)
    inv_cov = np.linalg.inv(cov)
    return np.sqrt(diff.dot(inv_cov).dot(diff.T))

# 示例
x = [1.0, 2.0]
y = [2.0, 3.0]
cov = np.array([[1.0, 0.5], [0.5, 1.0]])  # 协方差矩阵
print("马氏距离:", mahalanobis_distance(x, y, cov))

应用场景

马氏距离在多变量统计分析中非常有用，特别是在异常检测和模式识别中。它也常用于生物信息学和金融风险管理中，以识别异常值或异常行为。

汉明距离（Hamming Distance）

原理详解

汉明距离用于比较两个等长字符串之间的差异，计算在相同位置上不同字符的数量。这种距离度量方式在信息论中用于错误检测和纠正，特别是在通信系统中检测和纠正错误。汉明距离也可以用于衡量编码序列的相似度。

代码实现

以下是使用Python实现汉明距离计算的代码。这个函数接受两个字符串作为输入，并返回它们之间的汉明距离。

def hamming_distance(x, y):
    """
    计算两个字符串之间的汉明距离。
    
    参数:
    x (str): 第一个字符串。
    y (str): 第二个字符串。
    
    返回:
    int: 两个字符串之间的汉明距离。
    """
    if len(x) != len(y):
        raise ValueError("Both strings must have the same length.")
    return sum(ch1 != ch2 for ch1, ch2 in zip(x, y))

# 示例
x = '1011101'
y = '1001001'
print("汉明距离:", hamming_distance(x, y))

应用场景

汉明距离在信息论、编码理论、数据压缩和DNA序列比对中有广泛的应用。它也用于机器学习中的分类和聚类算法，尤其是在处理类别型数据时。

杰卡德距离（Jaccard Distance）

原理详解

杰卡德距离是两个集合交集与并集的比例的补数，用于度量集合之间的相似度或差异度。这种距离度量方式在机器学习中常用于度量样本之间的相似性，尤其是在处理类别型数据时。杰卡德距离也可以用于度量两个集合的不相似度。

代码实现

以下是使用Python实现杰卡德距离计算的代码。这个函数接受两个集合作为输入，并返回它们之间的杰卡德距离。

def jaccard_distance(x, y):
    """
    计算两个集合之间的杰卡德距离。
    
    参数:
    x (list): 第一个集合。
    y (list): 第二个集合。
    
    返回:
    float: 两个集合之间的杰卡德距离。
    """
    intersection = len(set(x) & set(y))
    union = len(set(x) | set(y))
    return 1 - intersection / union if union != 0 else 0

# 示例
x = [1, 2, 3, 4, 5]
y = [4, 5, 6, 7]
print("杰卡德距离:", jaccard_distance(x, y))

应用场景

杰卡德距离在聚类算法中，用于类别型数据的聚类。它也用于图像处理中，用于图像分割和对象识别。在文本挖掘中，用于文档相似性度量和主题建模。

通过这些详细的解释和代码示例，希望您能够更深入地理解每种距离计算方式的原理、实现和应用。这些距离度量在数据分析、机器学习和模式识别等领域中扮演着重要的角色，选择合适的距离度量对于算法的性能和结果的准确性至关重要。

原文地址：https://blog.csdn.net/ciweic/article/details/144138131

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：ProtonBase 教育行业解决方案
下一篇：web安全从0到1：burp-suite3

零基础学安全--shell练习
在shell脚本中字符串的比较通常使用[]和正常运算符=,而数字比较使用的是[]搭配-eq等选项，或者用(())算数扩展，直接进行比较，当然算数扩展也可以直接对数字进行计算，上述脚本中可以不用expr
阅读更多2024-12-01
行业分析---2024年蔚来汽车三季度财报及科技日
蔚来汽车的业务是比较广的，在笔者看来是不够聚焦。目前各家新势力都在围绕车本身进行全栈自研，像芯片，操作系统，智能驾驶，智能座舱等。
阅读更多2024-12-01
在 Ubuntu 20.04 上安装和使用GCC/G++
用虚拟机安装了一个Ubuntu 20.04 x64，准备编译一下C代码来看下，发现。使用 g++类似，主要区别是文件扩展名是cpp，代码是C++的代码。进入控制台窗口，分别输入以下命令即可。想要安装开
阅读更多2024-12-01
坐标系变换
三相电压合成矢量幅值为相电压峰值的3/2倍，因此为了确保幅值等效变换，Clark变换矩阵前置系数为2/3（若为了保持变换前后功率不变，则系数为。上述变换矩阵由下图中，A、B、C三个轴对α和β轴进行投影
阅读更多2024-12-01
STM32 PWM波形详细图解
步骤一：通过配置ARR(自动重装载值寄存器)和PSC(预分频器)的值，来设置CNT(计数器)的定时周期、计数频率。步骤二：再改变CCR(捕获/比较寄存器)的值，通过CNT与CCR的比较，可对PWM占空
阅读更多2024-12-01
spring boot mapper测试类优化
会启动整个容器，包括servlet窗口和spring 容器，随着项目文件数逐渐增加，测试一个类会启动很长时间，所以这次就是实现一个注解，加快我们在spring boot中写mapper测试类时的效率。
阅读更多2024-12-01
初识Linux(5) : 认识进程（上）
PCB是操作系统用于描述进程的当前状态以及控制进程运行的全部信息的数据结构。它是进程存在的唯一标志，记录了操作系统所需的，用于描述进程的当前情况以及控制进程运行的全部信息，如进程的状态、优先级、程序计
阅读更多2024-12-01
深度学习基础01_深度学习概述&参数初始化&激活函数
深度学习；初始化参数；激活函数
阅读更多2024-12-01
小米澎湃OS2跟蜂窝网络相关的设置和调试【功能设计】
btw，更新至澎湃OS2之后，电信卡是可以注册上5G-A显示5GA图标的，也是因为这里才关注到去了解什么是5G-A，因为之前只知道NSA和SA。蜂窝网络调试中，5G-A特性中心被做成展开了，可能是为了
阅读更多2024-12-01
性能监控框架的底层原理
本质上，这些框架通过与应用程序运行的底层系统（如CPU、内存、线程、网络等）以及语言级机制（如字节码、虚拟机、操作系统接口等）交互，来收集运行时性能指标。字节码增强允许开发者在不改变原始源代码的情况下
阅读更多2024-12-01

机器学习算法中的距离计算方式详解

欧氏距离（Euclidean Distance）

原理详解

代码实现

应用场景

曼哈顿距离（Manhattan Distance）

原理详解

代码实现

应用场景

闵可夫斯基距离（Minkowski Distance）

原理详解

代码实现

应用场景

马氏距离（Mahalanobis Distance）

原理详解

代码实现

应用场景

汉明距离（Hamming Distance）

原理详解

代码实现

应用场景

杰卡德距离（Jaccard Distance）

原理详解

代码实现

应用场景

相关文章