【车辆轨迹处理】python实现轨迹点的聚类（一）——DBSCAN算法

🕗 发布于 2024-07-23 08:37 算法 python 聚类

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档

文章目录

前言
一、单辆车轨迹的聚类与分析
二、整个数据集多辆车聚类
- 1.聚类
- 2.整体评价

前言

空间聚类是基于一定的相似性度量对空间大数据集进行分组的过程。空间聚类分析是一种无监督形式的机器学习。通过空间聚类可以从空间数据集中发现隐含的信息。
作者在科研工作中，需要对某些车辆的轨迹数据进行一些空间聚类分析，以期望发现车辆在行驶过程中发生轨迹点”聚集“的行为。当等时间间隔的轨迹点在某片区域分布过于”密“时，我们往往可以在这片区域发现某些信息，例如车辆在这片区域发生驻留或者低速行驶等。
在空间聚类算法中，DBSCAN是一种简单且有效的聚类算法，它有着基于密度、不需要预先指定聚类数、计算效率高的优点。
本文以如下格式车辆轨迹数据为例，实提供了DBSCAN对车辆轨迹数据聚类并分析的方法：

collect_time	id	lon	lat
时间	车辆标识	经度	纬度

为了尽量去除噪声影响，车辆轨迹数据已经经过滤波平滑，平滑方法可见作者之前文章：https://blog.csdn.net/jgsecurity/article/details/140608431。

一、单辆车轨迹的聚类与分析

对单辆车的轨迹数据，采用DBSCAN算法进行空间聚类。DBSCAN（Density-Based Spatial Clustering of Applications with Noise）是一种经典的密度聚类算法，适用于发现任意形状的聚类簇。其原理本文不做阐述，如有需要，可以自行搜索。

1.引入库

使用了数学计算库numpy和pandas，机器学习库scikit-learn，地理相关库shapely和geopy，绘图库matplotlib。

import numpy as np
import pandas as pd
from sklearn.cluster import DBSCAN
from sklearn import metrics
from shapely.geometry import MultiPoint
from geopy.distance import great_circle
import matplotlib.pyplot as plt

2.聚类

在进行聚类之前，先使用shapely和geopy库实现了get_centermost_point函数。其输入数据cluster是列表类型，表示每一组聚类的点集。作用是在获得了每个聚类之后，计算出该聚类的中心点。

# 计算每个聚类的中心点
def get_centermost_point(cluster):
    # 计算整个点集合的质心点
    centroid = (MultiPoint(cluster).centroid.x, MultiPoint(cluster).centroid.y)
    # 取点集合中离质心点最近的点为中心点
    centermost_point = min(cluster, key=lambda point: great_circle(point, centroid).m)
    # 返回中心点
    return tuple(centermost_point)

对单辆车的聚类函数cluster_traj，其输入数据data是dataframe类型，表示一辆车的轨迹数据。


# DBSCAN聚类
def cluster_traj(data):
    # 提取dataframe中的经纬度列
    coords = data[['smoothed_lat', 'smoothed_lon']].values

    # 地球半径(km)
    kms_per_radian = 6371.0088
    # 定义epsilon为0.5(km)，经纬度点间距离计算使用haversine公式
    # 由于haversine公式返回的距离是以弧度为单位，因此将距离阈值转换为弧度
    epsilon = 0.3 / kms_per_radian

    # 定义min_samples为6。epsilon和min_samples参数需要根据自己的数据调整。
    db = DBSCAN(eps=epsilon, min_samples=6, algorithm='ball_tree', metric='haversine').fit(np.radians(coords))
    cluster_labels = db.labels_
    # 离群点的聚类标签为-1，其余数据聚成n类，标签为为0到n-1。num_clusters获得总共的聚类数n。
    num_clusters = len(set(cluster_labels) - set([-1]))

    print('Clustered ' + str(len(data)) + ' points to ' + str(num_clusters) + ' clusters')
    data['c_label1'] = cluster_labels

    # 输出聚类clusters的情况，假如聚成了4类，每类2个点：
    # 0: [[30.6, 104.0], [30.9, 78.5]],
    # 1: [[30.6, 104.4], [30.4, 10.0]],
    # 2: [[30.5, 103.6], [30.7, 103.6]],
    # 3: [[30.8, 104.9], [30.3, 104.3]
    clusters = pd.Series([coords[cluster_labels == n] for n in range(num_clusters)])
    print(clusters)

    # 输计算噪声点占总点数的比例
    ratio = len(cluster_labels[cluster_labels[:] == -1]) / len(cluster_labels)
    print('噪声点占总点数的比例: ' + str(ratio))
    # 只有聚类数量>1时才能计算指标
    if num_clusters > 1:
        # 计算轮廓系数，作为聚类评价指标
        sc_score = metrics.silhouette_score(coords, cluster_labels)
        print('轮廓系数: ' + str(sc_score))
        # 计算DBI指标
        dbi_score = metrics.davies_bouldin_score(coords, cluster_labels)
        print('戴维斯-布尔丁指数: ' + str(dbi_score))

    print("\n")
    return data

3.聚类评价

需要注意的是，每辆车聚类之后，还计算了噪声比、轮廓系数(SC)、戴维斯-布尔丁指数(DBI)来评价聚类效果。其中SC指标越接近1，聚类效果越好；DBI指标越小，聚类效果越好。

除此之外，还可以使用matplotlib库通过绘制散点图的方式，来肉眼观察这辆车的聚类效果，只需在cluster_traj函数中的return语句前插入下列代码（matplotlib绘制的散点图用于实验时判断聚类效果来调整参数，若要绘制更美观的图，可考虑使用folium库在地图上绘制轨迹点）：

    # 获得每个聚类的中心点
    centermost_points = clusters.map(get_centermost_point)
    # 将各个聚类的中心点存入rep_points
    lats, lons = zip(*centermost_points)
    rep_points = pd.DataFrame({'lon': lons, 'lat': lats})
    # 绘制散点图
    colors = list(mcolors.TABLEAU_COLORS.values())  # 使用Tableau颜色作为聚类颜色
    noise_color = 'black'  # 离群点颜色
    fig, ax = plt.subplots(figsize=(12, 8))

    for i, cluster in enumerate(clusters):
        if i == len(colors):  # 如果聚类数超过颜色数，循环使用颜色
            color = colors[i % len(colors)]
        else:
            color = colors[i]

        ax.scatter(cluster[:, 1], cluster[:, 0], s=30, c=color, marker='o', label='Cluster ' + str(i))

    # 绘制离群点
    noise_points = coords[cluster_labels == -1]
    ax.scatter(noise_points[:, 1], noise_points[:, 0], s=20, c=noise_color, marker='x', label='Noise points')

    ax.scatter(rep_points['lon'], rep_points['lat'], c='red', marker='*', s=100, label='Cluster Centers')

    ax.set_title('DBSCAN Clustering of Trajectory Data')
    ax.set_xlabel('Longitude')
    ax.set_ylabel('Latitude')
    ax.legend()

    plt.show()

二、整个数据集多辆车聚类

本人的数据集中包含多辆车的轨迹数据，这些数据统一存储一个CSV文件中，并且已经按照id和collect_time数据升序排序。

1.聚类

使用groupby的方式对车辆按id分组，每组分别调用cluster_traj即可。

    #假设已经读入数据df
    clustered_data = pd.DataFrame()

    # 按车辆id分组，对每辆车的数据进行聚类
    grouped = df.groupby('id')
    for name, group in grouped:
        print('车辆id：' + name + '  轨迹点数：' + str(len(group)))
        clustered_group = cluster_traj(group)
        clustered_data = pd.concat([clustered_data, clustered_group], ignore_index=True)

2.整体评价

可以在函数外设置两个全局变量列表sc_scores和dbi_scores存储每辆车的评价指标。

# 全局变量用于存储指标
sc_scores = []
dbi_scores = []

对cluser_traj函数中的计算轮廓系数部分添加sc_scores.append(sc_score)和dbi_scores.append(dbi_score)两行代码。即计算每辆车的评价指标的同时，将其加入外部的列表中。

if num_clusters > 1:
        # 计算轮廓系数，作为聚类评价指标
        sc_score = metrics.silhouette_score(coords, cluster_labels)
        print('轮廓系数: ' + str(sc_score))
        sc_scores.append(sc_score)
        # 计算DBI指标
        dbi_score = metrics.davies_bouldin_score(coords, cluster_labels)
        print('戴维斯-布尔丁指数: ' + str(dbi_score))
        dbi_scores.append(dbi_score)

通过sc_scores和dbi_scores两个列表的分析，例如求均值、中位数、画图查看分布等方式，可以评价整个数据聚类效果的好坏。

原文地址：https://blog.csdn.net/jgsecurity/article/details/140612418

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：HarmonyOS应用开发者高级认证，Next版本发布后最新题库 - 多选题序号3
下一篇：便携式自动气象站：科技赋能气象观测

免费申请 Let‘s Encrypt SSL 证书
在网络安全日益重要的今天，为网站启用 SSL 证书是保障数据安全和用户信任的关键。Let's Encrypt 提供的免费 SSL 证书是一个很好的选择。下面我们详细介绍如何为网站域名申请该证书。
阅读更多2024-11-16
Spring Boot 中使用 @Transactional 注解配置事务管理
Spring Boot 中使用 @Transactional 注解配置事务管理
阅读更多2024-11-16
自定义实体类中DateTime属性的序列化格式
本文介绍了Newtonsoft.Json与System.Text.Json下如何在实体上自定义DateTime类型的序列化格式。
阅读更多2024-11-16
阅读2020-2023年《国外军用无人机装备技术发展综述》笔记_作战无人机和察打无人机图鉴
本篇对2020-2023年《国外军用无人机装备技术发展综述》这几篇文章中所提到的作战无人机和察打无人机逐个更详细的介绍。
阅读更多2024-11-16
Flutter：InheritedWidget数据共享
未使用数据共享时，要传递数据，只能组件间一级一级向下传递。InheritedWidget数据共享，优化下上边代码。下边代码中，创建了一个按钮，当点击时。
阅读更多2024-11-16
Ubuntu22.04.2 k8s部署
Helm 是 Kubernetes 的一个包管理工具，类似于 Linux 下的 apt 或 yum。它可以帮助用户通过定义配置文件的方式来部署和管理 Kubernetes 应用，极大地简化了应用在 K
阅读更多2024-11-16
推荐一款全能网络视频下载工具：闪豆视频下载器
是一款网络视频，主要支持下载同时，软件还具备4K、1080p60、720p60、1080+、720p、480p、360p画质的视频下载，无论你想要哪种画质，在这里都能满足你。
阅读更多2024-11-16
3D电子商务是什么？如何利用3D技术提升销售转化？
3D电子商务，简而言之，就是利用3D产品模型来优化和提升在线购物体验的一种新型电商模式。它打破了传统二维图片的局限，使消费者能够以前所未有的方式“触摸”和感受商品。无论是家具、服装、电子产品还是艺术品
阅读更多2024-11-16
麒麟系统下docker搭建jenkins
执行这个命令后，我们将启动一个Jenkins容器，并且可以通过宿主机的7083端口访问Jenkins的Web界面，通过7084端口访问Jenkins的调试端口。同时，Jenkins的数据会被存储在宿主
阅读更多2024-11-16
前后端交互之动态列
在做项目时，有时候后会遇到后端使用了**聚合函数**，导致生成的**对象的属性数量或数量不固定**，因此无法建立一个与之对应的对象来向前端传递数据，这时可以采用NameDataListVO向前端传递
阅读更多2024-11-16