中国领先的IT技术网站
|
|
创建专栏

ServerFrame::HashMap VS stl::unordered_map-性能探究之旅

突然就对项目中的HashMap有了强烈的好奇心,这个HashMap的实现够高效吗,和 std::unordered_map 的效率比较性能如何?

作者:池育龙|2017-09-13 10:04

Tech Neo技术沙龙 | 11月25号,九州云/ZStack与您一起探讨云时代网络边界管理实践


1. 引言

突然就对项目中的HashMap有了强烈的好奇心,这个HashMap的实现够高效吗,和 std::unordered_map 的效率比较性能如何? 他们的插入效率、查找效率、空间使用率对比起来是分别是什么样的?也没有找到相关的测评,于是就自己动手,测试了一下,并对一些影响性能的地方修改、验证自己的猜想,最终得到一个比较好的hashmap的实践。整个过程还是比较有意思的,现记录并分享出来。

1.1 好了别的不说了给我结论就好

好吧,大家都很忙,先给一下简要结论,时间紧迫的同学也可以直接跳到文尾查看结论小节.

  1. ServerFrame::HashMap 的哈希算法算出来的哈希值散列度不够,key的长度越长,散列能力越差,性能越差。
  2. 因为冲突处理的缘故,本文所做的几个用例中,极端情况下 ServerFrame::HashMap 的表现比 stl::unordered_map 差100倍;
  3. 哈希算法散列程度足够的时候,ServerFrame::HashMap 的表现比 stl::unordered_map 好。前者的插入效率是后者的10倍,查找效率3倍;
  4. 存储同样的数据,HashMap 耗内存多于 unordered_map;

1.2 show me the code

本文用到的测试代码和测试结果全部在 git.oa.com中,有兴趣的同学可以下载查看。

  1. 仓库路径:http://git.code.oa.com/lawrencechi/hashmap-benchmark.git 
  2. 成文时仓库版本 tag:v2.0 
  3. 内存: 12G 
  4. cpu 2核:   i7-6700 CPU 3.40GHz 
  5. ServerFrame::HashMap: 编译时预设的容量是 8000万 
  6.  
  7. 测试用例: 
  8. lawrencechi@lawrencechi-VirtualBox /data/hashmap-benchmark/hashmap-benchmark/build ±master:zap: » ./bm_hashmap.O2 
  9. Usage: bm_hashmap.O2 [-n count] -hijklmop 
  10.    -h: hashmap-int 
  11.    -i: hashmap-string(32 byte) 
  12.    -j: unordered-map-int 
  13.    -k: unordered-map-string 
  14.    -l: hashmap(32 byte)) idx 
  15.    -m: hash<string> idx 
  16.    -o: hashmapplus(32 byte)) idx 
  17.    -p: hashmapplus-string(32 byte)) 

2.int类型key

2.1用例结果

执行./bm_hashmap.O2 -n 700 -hj,获得数据,并绘制图表如下(画图数据经过省略,但关键信息还在,下同)

[图: 2.1插入耗时 ]

[ 图:2.1查找耗时 ]

总体来看,两个实现的效率都很高,稳定(斜率不变,意味着单位时间内插入条数没有变化),插入8000万条数据最多只需要4.5s, 在使用 ServerFrame::HashMap插入数据的时候,HashMap甚至能够达到 stl::unordered_map的10倍;当key不存在的时候,HashMap 查找速度也比 unordered_map 快4倍, key 存在的时候,容量少于5000万条时,HashMap 比 unordered_map 快,只有大于5000万时,两者查找的速度才相差不大。

这次测试看起来 HashMap 实现得非常完美,很好地解决了预设需求,插入效率高、查找效率高。虽然耗费的内存多,仅存8000万个int的 HashMap 需要 3.5G 的内存,但现代服务器内存充足,这个缺点似乎是可以忍受的。

除了内存之外,ServerFrame::HashMap 的实现就没有其他的缺点了吗? 很快,我就想到了他的 Hash 函数和冲突处理,决定从这里入手继续分析。

2.2 隐忧:hash算法

ServerFrame::HashMap 的 hash 算法实现是将 key 的 buffer(sizeof(key)),按照 int 字节累加,并将其结果和哈希表容量进行取余,简单粗暴,而且似乎也符合大道至简的理论。但是仔细想想,这个地方的实现违背了哈希算法的原则:均衡性。一个不够均衡性的算法会导致大量冲突,最终使得HashMap在反复的冲突处理中疲于奔命。

很简单,按照这个算法下面的这些数据算得到的哈希值都是一样的,而且这样的数据可以轻易地构造:

  1. 0xFFFFFFFF, 
  2. 0xFFFFFFFF 00000000 
  3. 0xFFFFFFFF 00000000 00000000 
  4. 0xFFFFFFFF 00000000 00000000 00000000 

最为对比,我们都知道构造两个拥有同样MD5值的数据是何等的困难。

而且仔细分析一下可以知道 2.1 用例刚好绕过了这个算法的缺陷,取到的key都不会相互冲突! 这时候的测试结果恰恰是最优结果!

如果冲突了会怎么样,测试结果变成怎么样? 在好奇心驱使下,我马上进行 3.1 用例的测试。

3. buffer(32byte)类型

3.1用例结果

执行./bm_hashmap.O2 -n 700 -ik,获得数据,并绘制图表如下

[图: 3.1插入耗时 ]

从上图可以看到,对于buffer类型的key,性能表现差异很大.

从HashMap的图来看,越到后面斜率越大,说明到后面的时候,插入单位条数的耗时已经急剧增长。这是符合我们的设想的,此时程序在拼命进行冲突处理!

从图中还可以得到一个信息,插入7000万条数据,HashMap的耗时是接近2500秒,也就是41分钟!

至于unordered_map,上图已经分析不出什么东西来,和HashMap比起来,它的变化太缓慢了。我只能抽出来单独分析,图如下:

[ [图:3.1插入耗时-unordered_map ]

unordered_map 斜率几乎不变,可以知道每次插入的耗时是相同的,稳定,插入7000万条数据,耗时25s,HashMap差不多是他的100倍。

从上面的测试结果可知 HashMap 的效率的确是急剧下降,但是这个急剧下降是 Hash 算法引起的吗? 还是需要定量分析!

4. hash 算法比较

4.1 unordered_map

stl::unordered_map 是C++11引进的,老版本也有,只是没有提供接口出来供外部使用。

恰好手头上有 gcc 4.9.3 的代码,于是一探究竟

  1. //代码片段 ================== 
  2.     //file:/data/study/gcc/gcc.4.9.3/gcc-4.9.3/libstdc++-v3/libsupc++/hash_bytes.cc +73 
  3.     size_t _Hash_bytes(const void* ptr, size_t len, size_t seed) 
  4.     { 
  5.         const size_t m = 0x5bd1e995; 
  6.         size_t hash = seed ^ len; 
  7.         const char* buf = static_cast<const char*>(ptr); 
  8.  
  9.         // Mix 4 bytes at a time into the hash. 
  10.         while(len >= 4) 
  11.         { 
  12.             size_t k = unaligned_load(buf); 
  13.             k *= m; 
  14.             k ^= k >> 24; 
  15.             k *= m; 
  16.             hash *= m; 
  17.             hash ^= k; 
  18.             buf += 4; 
  19.             len -= 4; 
  20.         } 
  21.  
  22.         // Handle the last few bytes of the input array. 
  23.         switch(len) 
  24.         { 
  25.             case 3: 
  26.                 hash ^= static_cast<unsigned char>(buf[2]) << 16; 
  27.             case 2: 
  28.                 hash ^= static_cast<unsigned char>(buf[1]) << 8; 
  29.             case 1: 
  30.                 hash ^= static_cast<unsigned char>(buf[0]); 
  31.                 hash *= m; 
  32.         }; 
  33.  
  34.         // Do a few final mixes of the hash. 
  35.         hash ^= hash >> 13; 
  36.         hash *= m; 
  37.         hash ^= hash >> 15; 
  38.         return hash; 
  39.     } 

对于可以转换成 size_t 类型的key,hash提供了几个特化哈希函数,直接返回((size_t)key),上面的哈希函数是buffer类型的哈希函数,传入起始地址,得到哈希值。这个hash算法用了几个魔数,各种位运算得到一个 int32 的值,好吧,此时我已经不知道怎么才能构造两个碰撞数据了。

最为对比,HashMap的hash函数如下:

  1. template <typename KEY_TYPE, typename DATA_TYPE, int NODE_SIZE, typename CMP_FUNC, int HASH_SIZE> 
  2. int CHashMap<KEY_TYPE, DATA_TYPE, NODE_SIZE, CMP_FUNC, HASH_SIZE>::HashKeyToIndex(const KEY_TYPE& rstKey, int& riIndex) const 
  3.     size_t uiKeyLength = sizeof(rstKey); 
  4.     unsigned int uiHashSum = 0; 
  5.  
  6.     //目前Hash算法实现比较简单只是将Key值的每个字节的值加起来并对SIZE取模 
  7.     unsigned int i; 
  8.     for( i = 0; i < uiKeyLength / sizeof(unsigned int); ++i) 
  9.     { 
  10.         unsigned int uiTmp = 0; 
  11.         memcpy(&uiTmp, ((char*)(&rstKey))+sizeof(uiTmp)*i, sizeof(uiTmp)); 
  12.         uiHashSum += uiTmp; 
  13.     } 
  14.  
  15.     if(uiKeyLength % sizeof(unsigned int) > 0) 
  16.     { 
  17.         unsigned char* pByte = (unsigned char*)&rstKey; 
  18.         pByte += (uiKeyLength - (uiKeyLength % sizeof(unsigned int))); 
  19.         unsigned int uiTemp = 0; 
  20.         memcpy((void *)&uiTemp, (const void *)pByte, uiKeyLength%sizeof(unsigned int)); 
  21.         uiHashSum += uiTemp; 
  22.     } 
  23.  
  24.     uiHashSum = (uiHashSum & ((unsigned int)0x7fffffff)); 
  25.     riIndex = (int)(uiHashSum % HASH_SIZE); 
  26.     return 0; 

4.2 用例设计

4.3 用例结果

执行./bm_hashmap.O2 -n 700 -lm,获得数据,并绘制图表如下

碰撞太频繁了,为了可读性,这里对原始数据做了二次统计。统计每一个冲突链表的长度,以及key数量和占比。key数量之和是 7000万,占比之和是100%。

这个表格就一目了然了:

  • 我们最期望的结果是没有冲突,也就是链表长度为1,仅占比0.265%!
  • 绝大部分的冲突链表长度在100以上, 占了总量的 95%.
  • 最长的链表达到了 5000以上,而且占比 有 0.705%,比我们期望的不冲突的占比还多了3倍。也就是说最差情况的比最好情况多了3倍。

作为对比,stl::unordered_map 的结果就好看很多了,甚至都不需要进行二次统计、处理:

那么,猜想一下,如果替换掉 ServerFrame::HashMap 的哈希算法,是不是测试的效果就会好很多呢?

5. 升级HashMap hash算法之后测试

开搞,把gcc4.9.3的哈希算法移植到 ServerFrame::HashMap,并放到一个新命名空间中,另存为文件 HashMapPlush.hpp。 重做3.1的测试用例 ./bm_hashmap.O2 -n 700 -lm,获得数据,并绘制图表如下

可见升级哈希算法之后,冲突还是存在,但是冲突链表过长的现象已经不存在了,最长的冲突链表长度也只有10。此时可以想象耗时数据肯定好了很多。

[ 图:5.1插入耗时 ]

可见,调整较小,但是效果比较明显

ServerFrame::HashMap 的插入耗时是 unordered_map 的 1/2;

ServerFrame::HashMap 斜率很稳,可见插入耗时比较稳定

6. 结论

从上面的实验可以看出,影响 HashMap 效率的主要是 哈希算法 和 内存分配算法,在哈希算法足够散列的情况下,预分配方式的效率更高。

空间换时间的策略是对的,两个影响因素,另个不够好的时候,靠空间得到的优势反而会损失;

原文链接:https://www.qcloud.com/community/article/625434

【本文是51CTO专栏作者“腾讯云技术社区”的原创稿件,转载请通过51CTO联系原作者获取授权】

戳这里,看该作者更多好文

【编辑推荐】

  1. Android的SP存储,效率探究
  2. 外媒速递:四项快速提示助你搞定应用级性能测试
  3. 绿色数据中心节能,值得探究的八大秘密
  4. 深入剖析影响网站性能的因素及监测手段
  5. 从读写分离到CQRS,张大胖是如何解决性能问题的?
【责任编辑:武晓燕 TEL:(010)68476606】

点赞 0
分享:
大家都在看
猜你喜欢

热门职位+更多

× CTO训练营(深圳站)