数据结构——位图&&布隆过滤器

🕗 发布于 2024-07-18 23:16 数据结构

一、位图

1.1 概念

所谓位图，就是用每一位来存放某种状态，适用于海量数据，数据无重复的场景。通常是用来判断某个数据存不存在的。

数据是否在给定的整形数据中，结果是在或者不在，刚好是两种状态，那么可以使用一个二进制比特位来代表数据是否存在的信息，如果二进制比特位为1，代表存在，为0代表不存在。比如：

1.2 实现

namespace bitmap
{
// N是需要多少比特位
template<size_t N>
class bitset
{
public:
bitset()
{
_bits.resize((N >> 5) + 1, 0);
}

void set(size_t x)
{
size_t i = x / 32;
size_t j = x % 32;
_bits[i] |= (1 << j);
}

void reset(size_t x)
{
size_t i = x / 32;
size_t j = x % 32;
_bits[i] &= ~(1 << j);
}

bool test(size_t x)
{
size_t i = x / 32;
size_t j = x % 32;

return _bits[i] & (1 << j);
}
private:
vector<int> _bits;
};
template<size_t N>
class twobitset
{
public:
void set(size_t x)
{
if (_bs1.test(x) == false && _bs2.test(x) == false)
{
_bs2.set(x);
}
else if (_bs1.test(x) == false && _bs2.test(x) == true)
{
_bs1.set(x);
_bs2.reset(x);
}
else if (_bs1.test(x) == true && _bs2.test(x) == false)
{
_bs1.set(x);
_bs2.set(x);
}
}

void Print()
{
for (size_t i = 0; i < N; i++)
{
if (_bs1.test(i) == false && _bs2.test(i) == true)
{
cout << "1->" << i << endl;
}
else if (_bs1.test(i) == true && _bs2.test(i) == false)
{
cout << "2->" << i << endl;
}
}
cout << endl;
}

private:
bitset<N> _bs1;
bitset<N> _bs2;
};
}

1.3 应用

快速查找某个数据是否在一个集合中
排序+去重
求两个集合的交集、并集等
操作系统中磁盘块标记

二、布隆过滤器

2.1 引出

用哈希表存储用户记录，缺点：浪费空间
用位图存储用户记录，缺点：位图一般只能处理整形，如果内容编号是字符串，就无法处理
将哈希与位图结合，即布隆过滤器

2.2 概念

布隆过滤器是由布隆在1970年提出的一种紧凑型的、比较巧妙的概率型数据结构，特点是高效的插入和查询，可以用来告诉你"某样东西一定不存在或者可能存在"，它是用多个哈希函数，将一个数据映射到位图结构中。此种方法不仅可以提升查询效率，也可以节省大量的内存空间。

2.3 实现

namespace bloomfilter
{
struct BKDRHash
{
size_t operator()(const string& s)
{
// BKDR
size_t value = 0;
for (auto ch : s)
{
value *= 31;
value += ch;
}
return value;
}
};

struct APHash
{
size_t operator()(const string& s)
{
size_t hash = 0;
for (long i = 0; i < s.size(); i++)
{
if ((i & 1) == 0)
{
hash ^= ((hash << 7) ^ s[i] ^ (hash >> 3));
}
else
{
hash ^= (~((hash << 11) ^ s[i] ^ (hash >> 5)));
}
}
return hash;
}
};

struct DJBHash
{
size_t operator()(const string& s)
{
size_t hash = 5381;
for (auto ch : s)
{
hash += (hash << 5) + ch;
}
return hash;
}
};
template<size_t N,
size_t X = 5,
class K = string,
class HashFunc1 = BKDRHash,
class HashFunc2 = APHash,
class HashFunc3 = DJBHash>

class BloomFilter
{
public:
void Set(const K& key)
{
size_t len = X * N;
size_t index1 = HashFunc1()(key) % len;
size_t index2 = HashFunc2()(key) % len;
size_t index3 = HashFunc3()(key) % len;
/* cout << index1 << endl;
cout << index2 << endl;
cout << index3 << endl<<endl;*/
_bs.set(index1);
_bs.set(index2);
_bs.set(index3);
}
bool Test(const K& key)
{
size_t len = X * N;
size_t index1 = HashFunc1()(key) % len;
if (_bs.test(index1) == false)
return false;
size_t index2 = HashFunc2()(key) % len;
if (_bs.test(index2) == false)
return false;
size_t index3 = HashFunc3()(key) % len;
if (_bs.test(index3) == false)
return false;
return true;
}
// 不支持删除，删除可能会影响其他值。
void Reset(const K& key);
private:
bitset<X* N> _bs;
};
}

2.4 查找

布隆过滤器的思想是将一个元素用多个哈希函数映射到一个位图中，因此被映射到的位置的比特位一定为1。所以可以按照以下方式进行查找：分别计算每个哈希值对应的比特位置存储的是否为零，只要有一个为零，代表该元素一定不在哈希表中，否则可能在哈希表中。

注意：布隆过滤器如果说某个元素不存在时，该元素一定不存在，如果该元素存在时，该元素可能存在，因为有些哈希函数存在一定的误判。

2.5 删除

布隆过滤器不能直接支持删除工作，因为在删除一个元素时，可能会影响其他元素。

【缺陷】

无法确定元素真正在布隆过滤器中
存在计数回绕

2.6 优缺点

【优点】

增加和查询元素的时间复杂度为O(K)，（K为哈希函数的个数，一般比较小），与数据量发小无关
哈希函数相互之间没有关系，方便硬件并行运算
布隆过滤器不需要存储元素本身，在某些对保密要求比较严格的场合有很大优势
在能承受一定的误判是，布隆过滤器比其他数据结构有着很大的空间优势
数据量很大时，布隆过滤器可以表示全集，其他数据结构不能
使用同一组散列函数的布隆过滤器可以进行交、并、差运算

【缺陷】

有误判率，即存在假阳性，即不能准确判断元素是否在集合中（补救方法：再建立一个白名单，存储可能误判的数据）
不能获取元素本身
一般情况下不能从布隆过滤器中删除元素
如果采用计数方式删除，可能会存在技术回绕问题

原文地址：https://blog.csdn.net/m0_73243771/article/details/140517763

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：‘vue-cli-service‘ 不是内部或外部命令，也不是可运行的程序或批处理文件。
下一篇：在数仓项目开发过程中常使用的命令

Python 函数用法与底层分析
也就是说，形式参数是在定义函数时使用的。传递可变对象的引用传递参数是可变对象（例如：列表、字典、自定义的其他可变对象等），实际传递的还是对象的引用。4：调用函数之前，必须要先定义函数，即先调用def创
阅读更多2024-09-23
webLogic反序列化漏洞CVE-2017-3506
webLogic反序列化漏洞CVE-2017-3506
阅读更多2024-09-23
相亲交易系统源码详解与开发指南
PHP和Laravel框架结合，构建高效、安全相亲交易平台。通过用户注册与登录、个人资料管理、匹配算法和消息通知等功能实现。关注安全性、性能优化和用户体验。
阅读更多2024-09-23
【二等奖论文】2024年华为杯研究生数学建模C题54页成品论文（后续会更新）
：摘要：随着国民经济发展和社会进步，基于电力电子技术的电能变换（得到迅速发展，尤其是新能源和信息通讯领域。
阅读更多2024-09-23
2024 年最新前端工程师 Vue3 框架详细教程（更新中）
vue 3 是 Vue.js 的最新版本，是一个用于构建用户界面的渐进式 JavaScript 框架。和 vue 2 相比，vue 3 引入了组合式 API，使开发者可以通过函数组织代码逻辑，适合处理
阅读更多2024-09-23
food facts食物营养成分数据集en.openfoodfacts.org.products
有个版本是2017年的，50M左右的，解开340M左右。最新的大约1G大小。
阅读更多2024-09-23
信息技术引领的智能化未来
随着信息技术的飞速发展，社会各个领域正在加速迈入智能化的新时代。信息技术的广泛应用，尤其是人工智能、大数据、物联网等前沿技术的创新与融合，正在从根本上改变着人们的生产和生活方式。本文将探讨信息技术在智
阅读更多2024-09-23
ubuntu安装StarQuant
【代码】ubuntu安装StarQuant。
阅读更多2024-09-23
UNet 眼底血管分割实战教程
✨🌈💫在医学影像分析领域，准确地分割眼底血管对于眼科疾病的诊断和治疗至关重要。本教程将详细介绍如何利用 UNet 进行眼底血管分割，包括云实例配置、数据集处理以及模型训练和测试。
阅读更多2024-09-23
适配器模式
将一个接口成客户希望的另一个接口，适配器模式使接口不兼容的那些类可以一起工作，适配器模式分为类结构型模式（继承）和对象结构型模式（组合）两种，前者（继承）类之间的耦合度比后者高，且要求程序员了解现有组
阅读更多2024-09-23

数据结构——位图&&布隆过滤器

一、位图

1.1 概念

1.2 实现

1.3 应用

二、布隆过滤器

2.1 引出

2.2 概念

2.3 实现

2.4 查找

2.5 删除

2.6 优缺点

相关文章