【算法】深入理解布隆过滤器

🕗 发布于 2024-10-18 18:38 python

1. 什么是布隆过滤器？

布隆过滤器（Bloom Filter）是一种空间效率极高的概率型数据结构，用于检测某个元素是否在一个集合中。与常见的数据结构如哈希表不同，布隆过滤器无法删除元素，并且会存在一定的误判率，即它可能会错误地判断一个不存在的元素为存在。

尽管如此，布隆过滤器在大规模数据场景中具有巨大的优势，特别是在存储和计算资源有限的情况下，它可以显著减少内存占用，并提供极高效的查询性能。

2. 业务场景

布隆过滤器的典型应用场景包括：

缓存穿透：在分布式缓存系统中，如 Redis，如果大量不存在的数据请求直接打到数据库层，会对数据库造成较大压力。布隆过滤器可以提前过滤掉这些不存在的请求，避免数据库查询。
反垃圾邮件系统：判断某个电子邮件是否曾被标记为垃圾邮件。布隆过滤器可以快速检测某个邮件是否已经处理过。
Web 爬虫：判断 URL 是否已经被爬取，避免重复爬取相同的页面。
区块链：在比特币等加密货币中，布隆过滤器用于快速判断某个交易是否相关。

3. 布隆过滤器的原理

布隆过滤器的核心思想是使用多个哈希函数来映射数据到一个位数组中，并通过检查位数组中的对应位来判断某个元素是否可能存在。

3.1 工作流程

初始化：布隆过滤器开始时是一个长度为 m 的位数组，所有位都被设置为 0。
插入操作：当插入一个元素时，布隆过滤器会通过 k 个独立的哈希函数对该元素进行哈希运算，得到 k 个哈希值。然后将这些哈希值对应的位数组位置置为 1。
查询操作：查询时，同样使用 k 个哈希函数对元素进行哈希运算。如果所有哈希函数对应的位数组中的位置都为 1，则说明该元素可能存在；如果有任何一个位置为 0，则说明该元素一定不存在。

3.2 错误率

布隆过滤器并不能 100% 精确地判断元素是否存在，它会存在误判的可能性。即使一个元素没有插入到布隆过滤器中，它也有可能由于哈希冲突而被误认为存在。

错误率取决于：

位数组的长度 m
哈希函数的数量 k
插入元素的数量 n

通过合理选择这些参数，可以将误判率控制在可接受的范围内。

3.3 最佳参数选择

在实际应用中，优化误判率非常重要。哈希函数的数量 k 与位数组的大小 m 有一个最佳值，通常可以通过以下公式计算：

误判率：
- P 是误判率
- k 是哈希函数的数量
- n 是插入的元素个数
- m 是位数组的大小
- e 是自然常数
最佳哈希函数个数：
- k 是哈希函数的数量
- m 是位数组的大小
- n 是插入的元素个数
- ln⁡(2) 是 2 的自然对数

4. 布隆过滤器的 Python 实现

下面我们使用 Python 实现一个简单的布隆过滤器。

import mmh3  # 需要安装 mmh3 库
from bitarray import bitarray  # 需要安装 bitarray 库

class BloomFilter:
    def __init__(self, size, hash_count):
        self.size = size
        self.hash_count = hash_count
        self.bit_array = bitarray(size)
        self.bit_array.setall(0)

    def add(self, item):
        for i in range(self.hash_count):
            digest = mmh3.hash(item, i) % self.size
            self.bit_array[digest] = 1

    def check(self, item):
        for i in range(self.hash_count):
            digest = mmh3.hash(item, i) % self.size
            if self.bit_array[digest] == 0:
                return False
        return True

# 初始化布隆过滤器
bf = BloomFilter(size=1000, hash_count=5)

# 添加元素
bf.add("hello")
bf.add("world")

# 查询元素
print(bf.check("hello"))  # 输出: True
print(bf.check("python"))  # 输出: False

4.1 实现说明

bitarray：用于表示布隆过滤器的位数组。我们使用第三方库 bitarray，因为它比 Python 自带的 list 更加节省空间。
mmh3：用于计算哈希值的库。mmh3.hash(item, i) 表示对元素进行哈希运算，i 用作种子，生成不同的哈希值。

5. 布隆过滤器的扩展

5.1 可扩展布隆过滤器

当布隆过滤器的容量被填满时，误判率会急剧上升。为了解决这个问题，可以使用可扩展布隆过滤器（Scalable Bloom Filter），它通过动态增加新的布隆过滤器来保证误判率保持在设定值以下。

5.2 布谷鸟过滤器

布谷鸟过滤器是一种与布隆过滤器类似的数据结构，但它支持删除操作，并且通常具有更低的错误率。它通过布谷鸟哈希法在内存中为元素找到更合适的位置。

6. 总结

布隆过滤器是一个极具效率的数据结构，尤其适用于需要快速判断某个元素是否存在于大规模数据集中的场景。虽然它存在误判的缺点，但通过合理设置参数，可以将误判率降至较低范围。同时，布隆过滤器的轻量化和快速性使得它在缓存、爬虫、反垃圾邮件等领域得到了广泛应用。

参考

Bloom Filter in Python

原文地址：https://blog.csdn.net/qq_20623849/article/details/142994401

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：Java并发安全容器（超级详解版）
下一篇：Java浅拷贝和深拷贝

mysql迁移到达梦的修改点
mysql转达梦数据库
阅读更多2024-10-19
【力扣 | SQL题 | 每日4题】力扣1596，1587，2228，2066
表中的每行数据表示一次交易的信息, 包括此次交易的账号(account_id), 交易类型(type), 交易发生时间(day), 交易发生金额(amount).Bob (customer 2) 一次
阅读更多2024-10-19
智能眼镜的隐私何在
但在2024年，这款智能眼镜卷土重来，并搭载了强大的AI功能。” 这似乎很实用，但事情开始变得诡异：眼镜还能通过一眼识别人们的身份，得知他们的姓名、职业、社会信用评分，甚至午餐吃了什么。例如，如果你在
阅读更多2024-10-19
SpringBoot项目热部署-devtools
DevTools 会使用两个类加载器（一个用于加载不变的类，一个用于加载可能会变化的类），每次重启只重新加载管理变化的类的加载器，因此会快很多。
阅读更多2024-10-19
1097 Deduplication on a Linked List——PAT甲级
【代码】1097 Deduplication on a Linked List——PAT甲级。
阅读更多2024-10-19
一款模拟键盘音效的软件
Tickeys是一款模拟键盘音效的软件，Tickeys支持六款音效：打字机、机械键盘、钢琴、剑气、打字机。如果你正在练习打字、聊天打字、写作，打字，那么你可以试试这款神奇的软件，敲击键盘的时候就会有各
阅读更多2024-10-19
Unity3D 框架如何实现道路引导 UV 动画详解
在游戏开发中，道路引导是一个常见的需求，可以用来指引玩家前进的方向。而为了增加游戏的真实感和视觉效果，我们可以使用道路引导 UV 动画来模拟道路的移动效果。本文将详细介绍 Unity3D 框架如何实现
阅读更多2024-10-19
Linux内核 -- 高性能运算操作之 this_cpu_* 接口
this_cpu_*系列接口是 Linux 内核中用于操作 per-CPU 变量的强大工具。它们提供了高效的 per-CPU 数据访问方法，适用于计数、统计等无需在多个 CPU 之间共享的数据。通过使
阅读更多2024-10-19
每日回顾：简单用C写选择排序、堆排序
直接选择排序（Selection Sort）是一种简单的排序算法。它的基本思想是每次从未排序的部分中选择最小（或最大）的元素，将其放到已排序部分的末尾。
阅读更多2024-10-19
ssh连接慢的问题或zookeeper远程连接服务超时
【代码】ssh连接慢的问题。
阅读更多2024-10-19