Python 如何对上万、百万、亿级数据去重？

🕗 发布于 2024-07-22 22:39 python

大家好！我是爱摸鱼的小鸿，关注我，收看每期的编程干货。

今天我们要一起探索一个让数据工程师、数据科学家和开发者们都头疼的问题：如何对海量数据进行去重。随着数据量的不断增长，我们在处理数据时，去重操作变得愈发重要且复杂。那么，Python 是如何帮助我们高效地对上万、百万，甚至亿级数据进行去重的呢？

一、初识数据去重

在开始之前，我们先来简单了解一下什么是数据去重。数据去重，顾名思义，就是从数据集中移除重复的元素，保留唯一的元素。

这看似简单的操作，在面对海量数据时，却充满了挑战。那么，Python 能帮我们做些什么呢？答案是：很多！

二、小规模数据去重

我们先从小规模数据说起，感受一下去重的简单和乐趣。假设我们有一个包含重复元素的列表，我们可以使用 Python 的集合（set）来轻松去重：

data = [1, 2, 2, 3, 4, 4, 5]
unique_data = list(set(data))
print(unique_data)

运行结果：

[1, 2, 3, 4, 5]

集合是无序且唯一的，因此将列表转换为集合再转换回列表，就实现了去重。这种方法简单高效，适用于小规模数据。

三、中规模数据去重：万级数据

当数据量达到万级时，直接使用集合去重依然有效，但我们需要考虑内存和性能问题。在这种情况下，我们可以借助 pandas 库来处理。pandas 不仅提供了强大的数据处理功能，还能有效利用内存。

import pandas as pd

data = [1, 2, 2, 3, 4, 4, 5] * 1000  # 模拟万级数据
df = pd.DataFrame(data, columns=["value"])
unique_df = df.drop_duplicates()
print(unique_df.head())

pandas 的 drop_duplicates() 方法非常高效，能够在保证数据顺序的同时进行去重。这对于数据分析和处理非常有用。

但如果列表里面是字典呢？例如下面这样的数据：

all_data_list = [
  {'_id':'007', 'name': 'makerchen66'},
  {'_id': '007': 'name': 'makerchen66'},
  {'_id': '008', 'name': 'dahuang'},
]

除了利用 pandas 的 drop_duplicates() 方法，还可以用下面这种妙招：

all_data_list = [eval(i) for i in set([str(data) for data in all_data_list])]

你没看错，这也能成：

[{'_id': '007', 'name': 'makerchen66'}, {'_id': '008', 'name': 'dahuang'}]

…

四、大规模数据去重：百万级数据

当数据量达到百万级时，我们需要更高效的解决方案。pandas 依然是一个不错的选择，但在某些场景下，我们可能需要分块处理数据，以减少内存占用。

分块处理
使用 pandas 的 read_csv() 方法，我们可以按块读取数据，逐块去重，再合并结果：

chunk_size = 100000
chunks = pd.read_csv("large_data.csv", chunksize=chunk_size)

unique_data = pd.DataFrame()
for chunk in chunks:
    unique_chunk = chunk.drop_duplicates()
    unique_data = pd.concat([unique_data, unique_chunk])

unique_data = unique_data.drop_duplicates()
print(unique_data.head())

通过分块处理，我们可以有效控制内存占用，避免内存不足的问题。

使用 Dask
除了 pandas，我们还可以使用 Dask 来处理大规模数据。Dask 是一个并行计算库，它能让你使用 pandas 一样的代码处理比内存大的数据集。

import dask.dataframe as dd

df = dd.read_csv("large_data.csv")
unique_df = df.drop_duplicates().compute()
print(unique_df.head())

Dask会将数据分块处理，并在后台自动管理内存和并行计算，从而高效地完成去重操作。

五、超大规模数据去重：亿级数据

当数据量达到亿级时，我们需要更加专业的工具和方法。此时，使用分布式计算框架如 Apache Spark 会是一个不错的选择。Spark 的 PySpark 接口让我们能够在 Python 中轻松使用 Spark 的强大功能。

使用 PySpark
首先，我们需要安装并配置 PySpark。在安装好 PySpark后，我们可以使用如下代码进行数据去重：

from pyspark.sql import SparkSession

# 初始化SparkSession
spark = SparkSession.builder.appName("DeDuplication").getOrCreate()

# 读取数据
df = spark.read.csv("large_data.csv", header=True, inferSchema=True)

# 去重
unique_df = df.dropDuplicates()
unique_df.show()

# 保存去重后的数据
unique_df.write.csv("unique_data.csv", header=True)

Spark 能够处理分布式数据集，利用多节点并行计算，大大提高了处理速度和效率。

使用 Bloom Filter
对于一些特定的应用场景，我们还可以使用布隆过滤器（Bloom Filter）来进行高效去重。布隆过滤器是一种概率型数据结构，能够以较低的内存开销实现近似去重。

from pybloom_live import BloomFilter

# 初始化布隆过滤器
bf = BloomFilter(capacity=100000000, error_rate=0.001)

# 模拟数据流
data_stream = (i for i in range(100000000))

# 去重
unique_data = []
for item in data_stream:
    if item not in bf:
        bf.add(item)
        unique_data.append(item)

print(len(unique_data))

布隆过滤器虽然不能保证百分之百的准确性，但在内存和时间复杂度上具有很大的优势，特别适合处理超大规模数据。

六、总结

在这篇文章中，我们探索了如何使用 Python 对上万、百万、亿级数据进行去重。从简单的集合去重，到使用 pandas 和 Dask 处理大规模数据，再到利用分布式计算框架 Spark 和布隆过滤器处理超大规模数据，Python 为我们提供了丰富的工具和方法。

无论你是处理日常的数据清洗工作，还是构建复杂的数据管道，合理选择和使用这些工具，能够大大提高你的工作效率，确保数据处理的准确性和高效性。

在这里插入图片描述
…

七、作者Info

Author：小鸿的摸鱼日常

Goal：让编程更有趣！专注于 Web 开发、爬虫，游戏开发，数据分析、自然语言处理，AI 等，期待你的关注，让我们一起成长、一起 Coding！

版权说明：本文禁止抄袭、转载，侵权必究！

原文地址：https://blog.csdn.net/qq_44000141/article/details/140620493

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：认识和安装R的扩展包，什么是模糊搜索安装，工作目录和空间的区别与设置
下一篇：宝塔SSL续签失败

Cellebrite UFED 4PC 7.70 下载 - Android 和 iOS 移动设备取证软件
Cellebrite UFED 4PC 7.70 下载 - Android 和 iOS 移动设备取证软件
阅读更多2024-09-20
快速掌握Postman接口测试
在前后端分离开发时，后端工作人员完成系统接口开发后，需要与前端人员对接，测试调试接口，验证接口的正确性可用性。而这要求前端开发进度和后端进度保持基本一致，任何一方的进度跟不上，都无法及时完成功能模块的
阅读更多2024-09-20
洛谷 P4683 [IOI2008] Type Printer
当时想法：当时看了题目标签，就有思路了（见代码注释），但一直RE+WA最后只剩下RE。众所周知，字典树很好地利用了字符串的公共前缀，这也就是上一行出现的原因。如果我们想要操作数尽可能少，那我们的删除数
阅读更多2024-09-20
前端——表格、列表标签
前端、web开发、表格标签、列表标签、无序列表、有序列表、table、ul li、oi li、dl dt dd
阅读更多2024-09-20
Docker UI强大之处？
DockerUI是一款由国内开发者打造的优秀Docker可视化管理工具。它拥有简洁直观的用户界面，使得Docker主机管理、集群管理和任务编排变得轻松简单。DockerUI不仅能展示资源利用率、系统信
阅读更多2024-09-20
分布式缓存服务Redis版解析与配置方式
Redis是一款高性能的键值对（Key-Value）存储系统，通常用作分布式缓存服务。它基于内存运行，支持丰富的数据类型，并具备高并发、低延迟的特点，非常适合用于缓存需要频繁访问的数据，以加快用户访问
阅读更多2024-09-20
力扣 167.两数之和||—输入为有序数组
利用相向双指针，初始时l在最用左边，r在最右边1.numbers[l] + numbers[r] < target 则 l++2.numbers[l] + numbers[r] < ta
阅读更多2024-09-20
docker中图形化界面的转发
docker中图形界面转发
阅读更多2024-09-20
数据库基础知识---------------------------（3）
MYSQL的事务索引优化视图以及常见的窗口函数
阅读更多2024-09-20
自闭症儿童寄宿学校：打造良好的学习和生活环境
星贝育园康复中心在打造良好的学习和生活环境方面，显然投入了大量的心血和努力，以确保自闭症儿童能够在最佳状态下接受康复训练。
阅读更多2024-09-20