BloomFilter 1.0生产_BloomFilter 1.0 Production下载地址

点这里下载 → 下载地址
相关Tags:

BloomFilter 1.0生产_BloomFilter 1.0 Production软件简介

数据结构优化的快,节省空间的集合成员测试

布隆过滤器被设计成一个数据结构优化,速度快,节省空间的集合成员测试。布鲁姆过滤器具有不寻常的特性要求恒定的时间的元素添加到成员集或试验,无论大小的元件或者已经在集合中的元素数。没有其他的恒定空间集的数据结构具有这种特性。

它的神器出山:www.shenqi73.com工作原理是存储一个位向量表示集合S'= {H [i]的(x)的| X在S,= 1,...,k}中,式中,h [1],...,H [k]的: = {0,1} - > [N LG(1 /ε)LG E]散列函数。添置简单k比特设置为1时,特别是那些在h(x)的[1],...,H [●](x)的。通过执行这些相同的散列函数,并返回,如果所得到的所有的位置有1个实施检查。

由于存储的集合是一个适当的添加的项目的集合的超集,可能会出现假阳性,但不能假阴性。假阳性率可以指定。“BloomFilter”

下面是一些主要特点:

·空间:大约n * LG电子(1 /ε),其中ε是假阳性率,n是集合中的元素的数量。
·例子:有中英文约170K字。如果我们认为这是我们的一组(N = 1.7E5),我们希望搜索语料库与一个1alse的阳性率,过滤器将需要约(1.7E5 * LG电子(1 / 0.01))162 KB 。与此相比,一个哈希表,这需要(1.7E5元素* 32位每单元)664 KB。显然,明确的字符串存储将显着更多。

·精度:任意精度,,增加精度要求更多的空间(以上尺寸方程),但没有更多的时间。
·例:如果我们要减少我们在上面的例子中的假阳性率从百分之一到一permille的空间需求会从162 KB到207 KB。

·时间:O(K),其中k是hash函数的数量。散列函数(尽管如果需要,可以由用户提供一个不同的数字)的最佳数量是ceiling(LG电子(1 /ε))
·例:在我们上面的例子中,如果接受的假阳性率是0.001,K = 10。

此版本中的新功能:

·简化的使用情况提供二次散列函数的字符串和整数。
·新增为那些需要它的构造函数来提供额外的控制。
·改进了计算最佳的双散列函数计数及相关数据结构的大小。
·添加了一个默认的假阳性率(根据容量计算)为那些不希望传递一个。
·现在醒目提供的容量和错误率时,将导致溢出。
·添加了自述文件解释用法。

随便看看

软件简略信息
  • 软件大小:4.00 KB
  • 下载次数:99
  • 更新时间:2013-03-09 12:27:00
  • 不能下载请报告错误,谢谢
本类热门软件