Google,Baidu,Tencent面试题总结资源-CSDN下载

需积分: 9 83 浏览量 2010-03-06 03:52:46 上传评论收藏 207KB PDF 举报

### Google、Baidu、Tencent 面试题总结——海量数据处理方法 #### Bloom Filter **适用范围**：Bloom Filter是一种空间效率极高的概率型数据结构，主要用于判断一个元素是否在一个集合中。它适用于数据字典的实现、数据判重、以及集合之间的交集求解。 **基本原理及要点**： - **位数组 + K个独立哈希函数**：通过K个哈希函数将元素映射到位数组的不同位置，并设置为1。查询时，若所有哈希函数对应位置均为1，则认为该元素可能存在（存在误判的可能性）。 - **误判率**：由于Bloom Filter允许一定程度的误判，因此其误判率需要被控制在可接受范围内。可以通过调整位数组的大小和哈希函数的数量来优化误判率。 - **Counting Bloom Filter**：为了支持元素删除操作，可以使用计数器数组替代简单的位数组。这使得删除成为可能，但同时也增加了存储成本。 - **参数选择**：根据输入元素数量\( n \)，位数组大小\( m \)以及哈希函数个数\( k \)的选择至关重要。当\( k = (\ln2) * (m/n) \)时，误判率最小。为了确保误判率不超过E，\( m \)至少需要等于\( n\lg(1/E) \)。为了保持位数组中至少有一半为0，\( m \)应该更大一些，大约为\( n\lg(1/E)1.44 \)倍。 **扩展应用**： - **Counting Bloom Filter (CBF)**：用于支持元素删除操作。 - **Spectral Bloom Filter (SBF)**：将Bloom Filter与集合元素的出现次数关联起来，利用计数器中的最小值来估计元素出现频率。 **问题实例**：给定两个文件A和B，各存放50亿条URL，每条URL占用64字节，内存限制为4GB，找出这两个文件中的共同URL。对于更多文件的情况，可以使用相同的策略。需要注意的是，根据内存限制和URL的数量，可能会导致误判率的增加。 #### Hashing **适用范围**：Hashing是一种高效的数据结构，特别适用于快速查找、插入和删除操作。它适用于数据量能够完全装入内存的情况。 **基本原理及要点**： - **哈希函数**：选择合适的哈希函数至关重要，不同的数据类型（如字符串、整数等）需要采用不同的哈希算法。 - **碰撞处理**：主要包括开放寻址法（Closed Hashing）和链地址法（Open Hashing）两种方式。 **扩展应用**： - **d-Left Hashing**：这是一种更复杂的哈希策略，它将哈希表分为多个部分，并为每个部分分配不同的哈希函数。例如，2-Left Hashing将哈希表分为两部分，并为每部分分配一个哈希函数，以减少碰撞概率。 **问题实例**：对于海量的日志数据，找出某一天访问百度次数最多的IP地址。可以考虑使用哈希表将IP地址映射到内存中，再进行统计分析。 #### Bit-Map **适用范围**：Bit-Map是一种利用位数组来表示特定范围内的元素是否存在的一种数据结构。它适用于数据量较小且数据范围限定的情况，例如电话号码等。 **基本原理及要点**：通过为每个元素分配一个比特位，使用位操作来记录元素的存在性。 **扩展应用**： - **Bloom Filter**：实际上可以看作是Bit-Map的一个扩展版本，提供了更高的灵活性和误判可能性。 **问题实例**：已知文件内包含一些8位数字组成的电话号码，需要统计其中不同电话号码的数量。可以使用Bit-Map来进行快速统计，所需内存约为10MB左右。 ### 总结通过对Google、Baidu、Tencent等公司在面试中常用的海量数据处理方法进行总结，我们可以看到Bloom Filter、Hashing以及Bit-Map都是非常实用且高效的数据处理工具。掌握这些方法不仅有助于解决实际工作中遇到的问题，也能提高我们在技术面试中的竞争力。希望以上的总结能为大家提供有益的帮助。

资源推荐

资源详情

资源评论



Google/Baidu/Tencent 面试题总结



‐‐‐‐‐‐‐‐‐‐转自兵马俑 BBS



大数据量的问题是很多面试笔试中经常出现的问题，比如 baidugoogle腾讯这样的一

些涉及到海量数据的公司经常会问到。



下面的方法是我对海量数据的处理方法进行了一个一般性的总结，当然这些方法可能并

不能完全覆盖所有的问题，但是这样的一些方法也基本可以处理绝大多数遇到的问题。

下面的一些问题基本直接来源于公司的面试笔试题目，方法不一定最优，如果你有更好

的处理方法，欢迎与我讨论。



1.Bloomfilter



适用范围：可以用来实现数据字典，进行数据的判重，或者集合求交集



基本原理及要点：

对于原理来说很简单，位数组+k 个独立 hash 函数。将 hash 函数对应的值的位数组置 1，

查找时如果发现所有 hash 函数对应位都是 1 说明存在，很明显这个过程并不保证查找的

结果是 100%正确的。同时也不支持删除一个已经插入的关键字，因为该关键字对应的位

会牵动到其他的关键字。所以一个简单的改进就是countingBloomfilter，用一个

counter 数组代替位数组，就可以支持删除了。



还有一个比较重要的问题，如何根据输入元素个数 n，确定位数组 m 的大小及 hash 函数

个

数。当 hash 函数个数 k=(ln2)*(m/n)时错误率最小。在错误率不大于 E 的情况下，m 至少

要等于 n*lg(1/E)才能表示任意 n 个元素的集合。但 m 还应该更大些，因为还要保证 bit 数

组里至少一半为

0，则 m 应该>=nlg(1/E)*lge大概就是 nlg(1/E)1.44 倍(lg 表示以 2 为底

的对数)。



举个例子我们假设错误率为 0.01，则此时 m 应大概是 n 的 13 倍。这样 k 大概是 8 个。



注意这里 m 与 n 的单位不同，m 是 bit 为单位，而 n 则是以元素个数为单位(准确的说是

不同

元素的个数)。通常单个元素的长度都是有很多 bit 的。所以使用 bloomfilter 内存上通

常都是节省的。



扩展：

Bloomfilter 将集合中的元素映射到位数组中，用 k（k 为哈希函数个数）个映射位是否

全 1 表示元素在不在这个集合中。Countingbloomfilter（CBF）将位数组中的每一位

扩展为一个 counter，从而支持了元素的删除操作。SpectralBloomFilter（SBF）将

其与集合元素的出现次数关联。SBF 采用 counter 中的最小值来近似表示元素的出现频率。



问题实例：给你 A,B 两个文件，各存放 50 亿条 URL，每条 URL 占用 64 字节，内存限制是

4G

，让你找出 A,B 文件共同的 URL。如果是三个乃至 n 个文件呢？



根据这个问题我们来计算下内存的占用，4G=2^32 大概是 40 亿*8 大概是 340 亿，n=50 亿，

如果按出错率 0.01 算需要的大概是 650 亿个 bit。现在可用的是 340 亿，相差并不多，这

样可能会使出错率上升些。另外如果这些 urlip 是一一对应的，就可以转换成 ip，则大

大简单了。



2.Hashing



适用范围：快速查找，删除的基本数据结构，通常需要总数据量可以放入内存



基本原理及要点：

hash 函数选择，针对字符串，整数，排列，具体相应的 hash 方法。

碰撞处理，一种是 openhashing，也称为拉链法；另一种就是 closedhashing，也称开

地址法，openedaddressing。



扩展：

d‐lefthashing 中的 d 是多个的意思，我们先简化这个问题，看一看 2‐lefthashing。2

‐lefthashing 指的是将一个哈希表分成长度相等的两半，分别叫做 T1 和 T2，给 T1 和 T2

分别配备一个哈希函数，h1 和 h2。在存储一个新的 key 时，同时用两个哈希函数进行计

算，得出两个地址 h1[key]和 h2[key]。这时需要检查 T1 中的 h1[key]位置和 T2 中的 h2[

key]位置，哪一个位置已经存储的（有碰撞的）key 比较多，然后将新 key 存储在负载少

的位置。如果两边一样多，比如两个位置都为空或者都存储了一个 key，就把新 key存

储在左边的 T1 子表中，2‐left 也由此而来。在查找一个 key

时，必须进行两次 hash，同

时查找两个位置。



问题实例：

1).海量日志数据，提取出某日访问百度次数最多的那个 IP。



IP 的数目还是有限的，最多 2^32 个，所以可以考虑使用 hash 将 ip 直接存入内存，然后进

剩余10页未读，继续阅读

评论收藏

内容反馈

hanks99

粉丝: 1

Google, Baidu, Tencent 面试题总结

最新资源

Google, Baidu, Tencent 面试题总结

阿里 面试题 总结

百度面试题总结

2019年_BATJ大厂面试题总结.7z

2011 百度面试题总结

iOS各类面试题总结.zip

2021最新面试经验，包括百度、阿里、美团、字节跳动算法面试题总结经验

2023最新JAVA面试题集

百度java面试题

Java面试题总结

软件开发笔试面试题总结精华版

前端面试题（包括百度阿里腾讯面试题）.txt

软件工程师 程序员10万字大厂应聘面试总结java面试题和答案.pdf

面试题-最新Java企业笔试面试题大全-百度、腾讯、头条、美团的Java面试题目总结

2020年前端面试真题（阿里、网易、滴滴等）文件为百度网盘链接永久有效

c语言面试题总结

2024年Go语言最新面试题（附带详细答案讲解）.docx

各大安全厂商网络安全面试题汇总（7份）.zip

百度 微软 面试题大全

百度Android工程师面试题（2024版）.zip

百度android面试题

10万字总结java面试题和答案

百度2013年面试题

百度面试题

BAT谷歌微软等各IT公司互联网C++ JAVA 计算机笔试面试真题复习资料108个文档合集.zip

2010年百度校园面试题

阿里面试题 腾讯面试题 百度面试题 华为面试题 京东面试题 头条面试题 经典面试题 程序员 IT经理 项目经理 面试题

百度Android工程师面试题.pdf

java 百度面试题 java 百度面试题

百度java开发面试题总结18-20年

建立标准数据对照表

如何通过手机连接从机HC-05蓝牙模块控制小车？

最新资源

阿里面试题总结

软件工程师程序员10万字大厂应聘面试总结java面试题和答案.pdf

百度微软面试题大全

阿里面试题腾讯面试题百度面试题华为面试题京东面试题头条面试题经典面试题程序员 IT经理项目经理面试题