推广 热搜:   设备  中国  参数  公司  未来  行业  企业  教师  政策 

Bloom Filter实现大数据集查询

   日期:2024-11-03     作者:caijiyuan    caijiyuan   评论:0    移动:http://wlb.glev.cn/news/8955.html
核心提示:先来看几个比较常见的例子字处理软件中,需要检查一个英语单词是否拼写正确在 FBI,一个嫌疑人的名字是否已经在嫌疑名单上在网络

先来看几个比较常见的例子

Bloom Filter实现大数据集查询

  • 字处理软件中,需要检查一个英语单词是否拼写正确
  • 在 FBI,一个嫌疑人的名字是否已经在嫌疑名单上
  • 在网络爬虫里,一个网址是否被访问过
  • yahoo, gmail等邮箱垃圾邮件过滤功能
  • 这几个例子有一个共同的特点: 如何判断一个元素是否存在一个集合中?

    常规思路
    数组
    链表
    树、平衡二叉树、Trie
    Map (红黑树)
    哈希表

    虽然上面描述的这几种数据结构配合常见的排序、二分搜索可以快速高效的处理绝大部分判断元素是否存在集合中的需求。但是当集合里面的元素数量足够大,如果有500万条记录甚至1亿条记录呢?这个时候常规的数据结构的问题就凸显出来了。数组、链表、树等数据结构会存储元素的内容,一旦数据量过大,消耗的内存也会呈现线性增长,最终达到瓶颈。有的同学可能会问,哈希表不是效率很高吗?查询效率可以达到O(1)。但是哈希表需要消耗的内存依然很高。使用哈希表存储一亿 个垃圾 email 地址的消耗?哈希表的做法:首先,哈希函数将一个email地址映射成8字节信息指纹;考虑到哈希表存储效率通常小于50%(哈希冲突);因此消耗的内存:8 * 2 * 1亿 字节 = 1.6G 内存,普通计算机是无法提供如此大的内存。这个时候,布隆过滤器(Bloom Filter)就应运而生。在继续介绍布隆过滤器的原理时,先讲解下关于哈希函数的预备知识。

  • 巴顿.布隆于一九七零年提出
  • 一个很长的二进制向量 (位数组)
  • 一系列随机函数 (哈希)
  • 空间效率和查询效率高
  • 有一定的误判率(哈希表是精确匹配)
  • 存在:在集合内(可能错误)”和“不在集合内(绝对不在集合内)”两种情况,可见 Bloom filter 是牺牲了正确率换取时间和空间。

    3.1布隆过滤器原理

    布隆过滤器(Bloom Filter)的核心实现是一个超大的位数组和几个哈希函数。假设位数组的长度为m,哈希函数的个数为k。

    布隆过滤器添加元素

  • 将要添加的元素给k个哈希函数
  • 将这k个位置设为1
  • 布隆过滤器查询元素

  • 将要查询的元素给k个哈希函数
  • 如果k个位置有一个为0,则肯定不在集合中
  • 如果k个位置全部为1,则可能在集合中
  • 3.2布隆过滤器实现

    下面给出python的实现,使用murmurhash算法

    至于Java版的实现,可以参考:

    本文地址:http://www.glev.cn/news/8955.html    歌乐夫 http://www.glev.cn/ , 查看更多
     
    标签: 数据集 查询 实现
     
    更多>同类行业资讯
    0相关评论

    新闻列表
    企业新闻
    推荐企业新闻
    推荐图文
    推荐行业资讯
    点击排行
    网站首页  |  关于我们  |  联系方式  |  使用协议  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  鄂ICP备2023001713号