C++：哈希表特性及开散列哈希表的模拟实现

// constructing unordered_maps
#include <iostream>
#include <string>
#include <unordered_map>

typedef std::unordered_map<std::string,std::string> stringmap;

stringmap merge (stringmap a,stringmap b) {
  stringmap temp(a); temp.insert(b.begin(),b.end()); return temp;
}

int main ()
{
  stringmap first;                              // empty
  stringmap second ( {{"apple","red"},{"lemon","yellow"}} );       // init list
  stringmap third ( {{"orange","orange"},{"strawberry","red"}} );  // init list
  stringmap fourth (second);                    // copy
  stringmap fifth (merge(third,fourth));        // move
  stringmap sixth (fifth.begin(),fifth.end());  // range

  std::cout << "sixth contains:";
  for (auto& x: sixth) std::cout << " " << x.first << ":" << x.second;
  std::cout << std::endl;

  return 0;
}

1.22 iterator find(const K& key)

此处返回的是key在哈希桶的位置，返回的是一个迭代器。

1.23 insert

（1）插入返回的是pair，pair的first是一个迭代器，指向的是插入成功/失败后的位置，成功就是插入成功的值的位置，失败就是end（）(基本上是这个）

second是bool值，插入成功是1，失败是0。下面代码在VS编译后也验证了unordered_map是不能插入相同的key值的。第二个ttest2是插入失败的。

1.24 operator[]

方括号重载。

int main ()
{
  std::unordered_map<std::string,std::string> mymap;

  mymap["Bakery"]="Barbara";  // new element  inserted
  mymap["Seafood"]="Lisa";    // new element  inserted
  mymap["Produce"]="John";    // new element  inserted

  std::string name = mymap["Bakery"];   // existing element accessed (read)
  mymap["Seafood"] = name;              // existing element accessed (written)

  mymap["Bakery"] = mymap["Produce"];   // existing elements accessed (read/written)

  name = mymap["Deli"];      // non-existing element: new element "Deli" inserted!

  mymap["Produce"] = mymap["Gifts"];    // new element "Gifts" inserted, "Produce" written

  for (auto& x: mymap) {
    std::cout << x.first << ": " << x.second << std::endl;
  }

  return 0;
}

当哈希表中没有该元素时，使用方括号重载会插入该元素，并返回该元素的second的引用,当哈希表中有该元素时，返回它的second的引用.

下图只是为了方便理解，实际中它哈希表中用的哈希函数（为了避免哈希冲突）哪种排序我不知道。所以单词的顺序可能有差别，但是键值对是这样发生改变的。

1.25 erase

给定要删除的元素的迭代器，给定要删除的元素迭代器区间，给定要删除的元素的key值，都可以删除掉。

int main ()
{
  std::unordered_map<std::string,std::string> mymap;

  // populating container:
  mymap["U.S."] = "Washington";
  mymap["U.K."] = "London";
  mymap["France"] = "Paris";
  mymap["Russia"] = "Moscow";
  mymap["China"] = "Beijing";
  mymap["Germany"] = "Berlin";
  mymap["Japan"] = "Tokyo";

  // erase examples:
  mymap.erase ( mymap.begin() );      // erasing by iterator
  mymap.erase ("France");             // erasing by key
  mymap.erase ( mymap.find("China"), mymap.end() ); // erasing by range

  // show content:
  for ( auto& x: mymap )
    std::cout << x.first << ": " << x.second << std::endl;

  return 0;
}

示例中，通过迭代器的开始删除了第一个；通过key，删除了key为France的键值对；通过迭代器区间，删除了两个。

1.26 find

查找，可以通过key值查找，返回的是迭代器，const函数就是const迭代器。

1.3 哈希概念

哈希是一种一一映射的概念，有点像数学中的函数。通过建立映射关系，就可以通过这种法则，快速找到映射的另一个。

哈希表运用了哈希概念。它把待存储的数据和哈希表中的下标建立映射关系，提到下标，那么存储的容器当然是顺序表，通过数据的值本身就能飞快访问到数据所存储的位置。这种访问是时间复杂度是O(1)。

对于整型数据，整数1可以存在下标为1的位置，其他整数也以此类推。但数量过大的整数或者分布不太密集的整数可能会造成空间的浪费。因此需要有更加好的法则来建立一一映射的关系。

这种法则就是对数据进行初步处理之后，得到一个相应的下标，再把这个数存在相应的下标中。

这种处理数据的哈希函数有很多。处理后的下标可能是两个相同的数，比如哈希函数是原始数据%10，那么1%10==1，101%10==1，那么这两个数看起来似乎都要存在1，数据就会造成覆盖，这时就会造成哈希冲突。当然也可以把函数设置的复杂一点比如加上^&多种运算来建立映射关系。

再好的哈希函数都无法避免哈希冲突，因为数字是无限多的，而顺序表的容量是有限的。我们只能尽量避免哈希冲突。

1.31闭散列哈希表

线性探测解决。

线性探测的思路：如果1%10==1,1放在下标为1的位置，101%10==1，1的位置已经有值了，那么101就往1的后面没有值的位置找。如果2位置是空的，那么101就存在2这里了。但是2的位置被占领以后，如果有102%10==2，那么102就不能存在2的位置，依然要往后找，这样如果哈希冲突的数据比较多，很多数就被迫放在后面，那么查找的时间就消耗多一点，需要一直往后找。

所以一般情况下，不会让这个哈希表太满，数据/容量=0.7左右。这个值也叫负载因子。

后面又有了开散列来解决哈希冲突。

1.32开散列哈希表

它是一个顺序表，每个节点是一个指针，下面挂着的都是指针。相当于这个哈希表是一个指针数组。

如果遇到哈希冲突，就把这个值进行头插。需要找的时候，就在这个链表上找。这个方法一般设置

负载因子为1，在元素数据等于哈希表容量时，就要扩容。这样每个节点下也不会说挂太多值。在好的哈希函数之下，即使有哈希冲突，节点下面挂的节点并不会太多，查找的效率很高，已经可以看作O(1)的时间复杂度了。

二、部分功能模拟实现

本次主要模拟实现开散列的哈希表。

分析：

1.准备四个文件，一个是哈希表的头文件，然后再装迭代器，再装unordered_map和unordered_set，最后放在test.cpp文件里进行测试。

2.主要实现插入，删除，查找和扩容功能。

3.迭代器要实现前置++和后置++等常用功能。

细节很多，可以多了解一下官方的功能，然后再写。

hashtable.h

#pragma once
#include <iostream>
using namespace std;
#include <vector>
#include <string>
#include <assert.h>
#include <utility>

template<class K>
class HashFunc//哈希函数，仿函数，传一个val返回val
{
public:
size_t operator()(const K& val)
{
return val;
}
};

template<>
class HashFunc<string>//特化，如果是字符串，走这个仿函数
{
public:
size_t operator()(const string& s)
{
const char* str = s.c_str();
unsigned int seed = 131; // 31 131 1313 13131 131313
unsigned int hash = 0;
while (*str)
{
hash = hash * seed + (*str++);
}

return hash;//把字符串经过一些处理转变为unsigned int，达到映射，减少哈希冲突
}
};
namespace OpenHash
{

template<class K>
struct HashBucketNode//哈希桶中的节点
{
HashBucketNode(const K& data)
: _pNext(nullptr), _data(data)
{}
HashBucketNode<K>* _pNext;
K _data;
};

template<class K, class T, class KeyOfValue, class HF>
class HashBucket;

// 注意：因为哈希桶在底层是单链表结构，所以哈希桶的迭代器不需要--操作
//map和set中迭代器是相同的，所以都放到hashtable.h中来实现了
template <class K, class T, class KeyOfValue, class HF>
struct HBIterator
{
typedef HashBucket<K, T, KeyOfValue, HF> HashBucket;
typedef HashBucketNode<T>* PNode;
public:
typedef HBIterator<K, T, KeyOfValue, HF> Self;

HBIterator(PNode pNode = nullptr, HashBucket* pHt = nullptr)//实现一下构造
:_pNode(pNode)
,_pHt(pHt)
{

}
Self& operator++()//前置++
{
// 当前迭代器所指节点后还有节点时直接取其下一个节点
if (_pNode->_pNext)
{
_pNode = _pNode->_pNext;
}
else
{
// 找下一个不空的桶，返回该桶中第一个节点
size_t bucketNo = _pHt->HashFunc(KeyOfValue()(_pNode->_data)) + 1;
for (; bucketNo < _pHt->BucketCount(); ++bucketNo)
{
if (_pNode = _pHt->_table[bucketNo])
break;
}
}

return *this;
}
Self operator++(int)//实现后置++
{
Self it = *this;
if (_pNode->_pNext)
_pNode = _pNode->_pNext;
else
{
// 找下一个不空的桶，返回该桶中第一个节点
size_t bucketNo = _pHt->HashFunc(KeyOfValue()(_pNode->_data)) + 1;
for (; bucketNo < _pHt->BucketCount(); ++bucketNo)
{
if (_pNode = _pHt->_table[bucketNo])
break;
}
}

return it;
}
T& operator*()
{
return _pNode->_data;
}
T* operator->()
{
return &_pNode->_data;
}
bool operator==(const Self& it) const
{
return _pNode == it._pNode;
}
bool operator!=(const Self& it) const
{
return _pNode != it._pNode;
}
PNode _pNode;             // 当前迭代器关联的节点
HashBucket* _pHt;         // 哈希桶--主要是为了找下一个空桶时候方便
};
// 本文所实现的哈希桶中key是唯一的
template<class K, class T, class KeyOfValue, class HF>
class HashBucket
{
//把迭代器列为友元，这样迭代器就可以使用哈希桶中的成员了
template <class K, class T, class KeyOfValue, class HF>
friend struct HBIterator;

typedef HBIterator<K, T, KeyOfValue, HF> iterator;
typedef HashBucketNode<T> Node;//把节点重命名为Node
typedef Node* PNode;
typedef HashBucket< K, T, KeyOfValue, HF> Self;

public:

size_t GetNextPrime(const size_t & prime)
{
const int PRIMECOUNT = 28;
static const size_t primeList[PRIMECOUNT] =
{
53ul, 97ul, 193ul, 389ul, 769ul,
1543ul, 3079ul, 6151ul, 12289ul, 24593ul,
49157ul, 98317ul, 196613ul, 393241ul, 786433ul,
1572869ul, 3145739ul, 6291469ul, 12582917ul, 25165843ul,
50331653ul, 100663319ul, 201326611ul, 402653189ul, 805306457ul,
1610612741ul, 3221225473ul, 4294967291ul
};

// 获取比prime大那一个素数
size_t i = 0;
for (; i < PRIMECOUNT; ++i)
{
if (primeList[i] > prime)
return primeList[i];
}

return primeList[PRIMECOUNT-1];
}
HashBucket(size_t capacity)
: _table(GetNextPrime(capacity))
, _size(0)
{}
HashBucket()
:_table(GetNextPrime(0))
,_size(0)
{}
//添加了迭代器
iterator begin()
{
for (size_t i = 0; i < _table.size();++i)
{
if(_table[i])
{
return iterator(_table[i], this);
}
}
return end();
}
iterator end()
{
return iterator(nullptr, this);
}

~HashBucket()
{
Clear();
}

// 哈希桶中的元素不能重复
//返回的节点从Node*改为pair<iterator,bool>
pair<iterator,bool> Insert(const T& data)
{
CheckCapacity();//检查一下容量，满了扩容
KeyOfValue kov;
size_t index  = HashFunc(kov(data));//取data映射的位置
PNode cur = _table[index];//这个位置的指针

while (cur)//指针不为空
{
if (cur->_data == data)
{
return { { cur, this }, false };
}
cur = cur->_pNext;
}

//出来以后，没有返回，说明这里没有重复值
//插入
PNode newnode = new Node(data);
newnode->_pNext = _table[index];
_table[index] = newnode;
++_size;
return { {newnode, this}, true };
}

// 删除哈希桶中为data的元素(data不会重复)
bool Erase(const K& key)
{
//1.如果哈希表中没有元素，删除失败
if (_table.size() == 0)
{
return false;
}

//2.找data的映射值
KeyOfValue kov;
size_t index = HashFunc(key);
PNode cur = _table[index];
PNode prev = nullptr;

while (cur)
{
if (kov(cur->_data) != key)
{
prev = cur;
cur = cur->_pNext;
}
else
{
break;
}
}
//找到了
if (prev)//cur不是头节点
{
prev->_pNext = cur->_pNext;
}
else
{
_table[index] = cur->_pNext;
}
delete cur;
_size--;

return true;
}
iterator Find(const K& key)
{
if (_table.size() == 0)
{
return iterator(nullptr,this);
}

KeyOfValue kov;
size_t index = HashFunc(key);
index %= _table.size();
PNode cur = _table[index];
while (cur)
{
if (kov(cur->_data) == key)
{
return iterator(cur,this);
}
cur = cur->_pNext;
}
return iterator(nullptr,this);
}

size_t Size()const
{
return _size;
}

bool Empty()const
{
return 0 == _size;
}

void Clear()
{
size_t i = 0;
for (; i < _table.size();++i)
{
PNode cur = _table[i];
while (cur)
{
PNode next = cur->_pNext;
delete cur;
cur = next;
}
_table[i] = nullptr;
}
_size = 0;
}

size_t BucketCount()const
{
return _table.capacity();
}

void Swap(Self& ht)
{
_table.swap(ht._table);
swap(_size, ht._size);
}
 
 size_t BucketSize(const K& key)
{
 return HashFunc(key);
}

private:
size_t HashFunc(const K& data)
{
return HF()(data) % _table.capacity();  
}

void CheckCapacity()
{
if (_size == _table.size())
{
size_t newcapacity = GetNextPrime(_table.capacity());
Self newtable(newcapacity);
for (size_t i = 0; i < _table.size();++i)
{
PNode cur = _table[i];
while (cur)
{
newtable.Insert(cur->_data);
cur = cur->_pNext;
}
}
Swap(newtable);
}
}

private:
vector<Node*> _table;
size_t _size;      // 哈希表中有效元素的个数
};
}

unordered_map.h

这里typedef 的时候是pair<const K, V>，不是pair<K , V>，请注意。

#pragma once
#include "hashtable.h"


namespace ting
{

    // unordered_map中存储的是pair<K, V>的键值对，K为key的类型，V为value的类型，HF哈希函数类型
    // unordered_map在实现时，只需将hashbucket中的接口重新封装即可
    template<class K, class V, class HF = HashFunc<V>>
    class unordered_map
    {
        // 通过key获取value的操作
        struct mapKeyOfValue
        {
            const K& operator()(const pair<K, V>& kv) 
            {
                return kv.first;
            }
        };
    public:
        typedef typename OpenHash::HBIterator<K, pair<const K, V>, mapKeyOfValue, HF> iterator;
        typedef typename OpenHash::HashBucket<K, pair<const K, V>, mapKeyOfValue, HF>  HT;
        //typedef OpenHash::HBIterator<K, pair<K,V>, KeyOfValue, HF> iterator;
 
        //typename typedef HT::Iterator iterator;
        unordered_map() : _ht()
        {}

        iterator begin() { return _ht.begin(); }
        iterator end() { return _ht.end(); }

        // capacity
        size_t size()const { return _ht.size(); }
        bool empty()const { return _ht.empty(); }

        // Access
        V& operator[](const K& key)
        {
            pair<iterator, bool> ret = _ht.Insert(make_pair(key, V()));
            return ret.first->second;
        }
        const V& operator[](const K& key)const
        {
            pair<iterator, bool> ret = _ht.Insert(make_pair(key, V()));
            return ret.first->second;
        }

        // lookup
        iterator find(const K& key) { return _ht.Find(key); }
        size_t count(const K& key) { return _ht.Count(key); }

        // modify
        pair<iterator, bool> insert(const pair<K,V> value)
        {
            return _ht.Insert(value);
        }

        iterator erase(iterator position)
        {
            return _ht.Erase(position);
        }

        // bucket
        size_t bucket_count() { return _ht.BucketCount(); }
        size_t bucket_size(const K& key) { return _ht.BucketSize(key); }
    private:
        HT _ht;
    };
    void maptest()
    {
        unordered_map<string, string> m;
        m.insert(make_pair("left",""));
        m.insert(make_pair("right",""));
        m.insert(make_pair("medium",""));

        for (auto e : m)
        {
            cout << e.first << endl;
        }
    }
}

unordered_set.h

#pragma once
#include "hashtable.h"


namespace ting
{
 //unordered_set中存储的是K类型，HF哈希函数类型
// unordered_set在实现时，只需将hashbucket中的接口重新封装即可
template<class K, class HF = HashFunc<K>>
class unordered_set
{

// 通过key获取value的操作
struct setKeyOfValue
{
const K& operator()(const K& data)
{
return data;
}
};

public:
typedef typename OpenHash::HBIterator<K, K, setKeyOfValue, HF> iterator;
typedef typename OpenHash::HashBucket<K, K, setKeyOfValue, HF> HT;
unordered_set() : _ht() {}


iterator begin() { return _ht.begin(); }
iterator end() { return _ht.end(); }

// capacity
size_t size()const { return _ht.size(); }
bool empty()const { return _ht.empty(); }
///
// lookup
iterator find(const K& key) { return _ht.Find(key); }
size_t count(const K& key) { return _ht.Count(key); }
/
// modify
pair<iterator, bool> insert(const K& value)
{
return _ht.Insert(value);
}

bool erase(const K& key)
{
return _ht.Erase(key);
}

// bucket
size_t bucket_count() { return _ht.BucketCount(); }
size_t bucket_size(const K& key) { return _ht.BucketSize(key); }
private:
HT _ht;
};

void settest()
{
unordered_set<int> s1;
s1.insert(1);
s1.insert(2);
s1.insert(3);

for (auto e : s1)
{
cout << e << endl;
}
unordered_set<int>::iterator it = s1.find(1);
it = s1.begin();

while (it != s1.end())
{
cout << *it << endl;
++it;
}

}
}

原文地址：https://blog.csdn.net/2301_79490289/article/details/140228187

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：SMTP服务器地址与端口号有哪些关系与区别？
下一篇：Springboot集成Apollo后，更新Apollo配置成功但是程序里获取还是老的问题