Hadoop、Spark、Hive 到底是什么，做算法要不要学？

作者：编程江湖

2021 年 11 月 26 日
本文字数：2337 字
阅读完需：约 8 分钟

最近我发现，很多萌新说着想要做算法工程师，但是却对这个岗位的要求以及工作内容一无所知。以为学一个 Python，再学一些机器学习、深度学习的模型就可以胜任了。工作就是用 Python 不停地写模型。

显然，这样的想法是有问题的，如果真这么干，即使通过了面试成功入职，也会干得非常痛苦。因为你会发现这也不知道那也不知道，做啥都很吃力，需要一段很长的时间学习。而这种为了应付工作临时抱佛脚的学习往往很难深入，有种不停打补丁的感觉。

今天就和大家聊聊算法工程师的几项基本功，看看除了算法和模型之外，还需要学些什么。

hadoop

首先当然是 hadoop，不过 hadoop 不是一门技术，而是一个大数据框架。它的 logo 是一只黄色的小象，据说是这个项目的创建者用女儿的玩具命名的。

经过了很多年的发展，现在 hadoop 框架已经非常成熟，衍生出了一个庞大的家族。有多庞大呢，我在 google 里给大家找了一张图，大家可以看看感受一下，这里面有多少是自己知道的，有多少没听说过。

当然对于算法工程师来说，hadoop 家族并不需要全部了解，只需要着重关注几个就可以了。

hdfs

首先是 hdfs，hdfs 是 hadoop 框架中的分布式文件系统。因为在工业场景当中，数据量是非常庞大的，动辄 TB 甚至是 PB 量级。如此庞大的数据，显然不可能存在一块磁盘里，必须要分布式存储，分成不同的部分，不同的部分分开存储。通过 hdfs 我们可以很方便地实现这一点，可以使用一些简单的 shell 命令管理大规模的数据。

hdfs 的内部是分片(block)存储的，并且设计了严谨的容错机制，尽可能地保证了数据的准确性。一般我们用 hdfs 存储一些离线数据，也就是对延迟要求不高的数据，比如模型的训练数据。它的特点是存储能力很强，但是读取速度很慢，中间的延迟很长。

因为训练数据的规模往往也非常庞大，并且从用户线上的实时行为转化成模型需要的输入，中间需要大量的计算步骤。这会带来巨大的计算压力，因此对于这样的数据，我们往往都是借助于 hdfs 做离线处理。设计一套数据处理流程，进行若干步骤的处理，每一步处理的中间数据都存储在 hdfs 上。

模型训练的时候，也通过挂载 hdfs 的方式直接读取 tensor 进行训练。

MapReduce

hdfs 是 hadoop 的存储系统，hadoop 同样也推出过一套计算系统，就是 MapReduce。

我在之前的文章曾经介绍过 MapReduce 的原理，其实非常简单，它将数据的计算过程抽象成了两个步骤。一个步骤叫 map，一个步骤叫 reduce。

map 步骤做的数据的映射，比如我们从一个很大的 json 文件当中读取出我们想要的字段，在这个步骤当中，我们从 json 获得了几个字段。

reduce 步骤做的是汇总，我们把刚刚 map 阶段得到的结果，按照我们的想法汇聚在一起，比如计算平均数、中位数等等。

这个想法巧妙的地方在于 map 和 reduce 都是可以分布式进行的，比如 map 阶段，我们可以对 hdfs 里的每一个文件都设置一个 map 读取文件进行处理。map 阶段结束之后，我们也可以起多个 reducer 对 map 的结果进行加工，尽可能导致了整个过程都是并发进行的，也就保证了数据的处理速度。

虽然 MapReduce 的提出到现在已经十多年了，但仍然没有淘汰，还在很多场景当中广泛使用。

hive

hive 也是 hadoop 家族核心的一员，它的思想也很巧妙，做了一件非常有利于程序员的事情。

使用 hdfs 以及 MapReduce 其实就足够应付几乎所有大数据计算的场景了，但是足够应付并不代表应付起来很舒服。有些场景使用起来就不是很顺手，比如说我们要把两份数据关联在一起，一份是用户点击数据，一份是商品数据，我们想要得到用户点过的商品信息。大数据培训

你会发现使用 MapReduce 去做这样一件事情会非常蛋疼，要写很多代码。所以有人突发奇想，我们能不能利用 hdfs 以及 MapReduce 做一套好用一点的数据处理系统，比如说将数据全部格式化，然后像是数据库一样使用 SQL 来进行数据的查询和处理?于是就有了 hive。

hive 底层的运算框架就是 MapReduce，只不过有了表结构之后，很多之前很复杂的操作被大大简化了。尤其是数据表之间的 join、group by 等操作，之前需要写大量 MapReduce 的代码，现在几行 SQL 就搞定了。

不过 hive 毕竟不是数据库，它的使用还是有一些它自己专属的奇淫技巧。比如说避免数据倾斜的情况，比如说设置合理的内存分片，比如说 udf 的使用等等。

只是懂 SQL 的语法是写不好 hive 的，多少还需要做一些深入的了解。

spark

说到 spark 相信很多同学也是久仰大名，它是一个非常著名的开源集群计算框架，也可以理解成一个分布式计算框架。

spark 在 MapReduce 的基础上对 MapReduce 当中的一些问题进行了优化，比如 MapReduce 每次运算结束之后都会把数据存储在磁盘上，这会带来巨大的 IO 开销。

而 spark 使用了存储器内运算技术，可以尽量减少磁盘的写入。这其中的技术细节看不懂没有关系，我们只需要知道它的运算性能比 MapReduce 快很多就可以了，一般来说运算速度是 MapReduce 的十倍以上。并且 spark 原生支持 hdfs，所以大部分公司都是使用 hdfs 做数据存储，spark 来进行数据运算。

在 hadoop 推出了 hive 之后，spark 也推出了自己的 spark SQL。不过后来 hive 也支持使用 spark 作为计算引擎代替 MapReduce 了，这两者的性能上差异也就很小了，我个人还是更喜欢 hive 一点，毕竟写起来方便。

另外 spark 除了计算框架之外，当中也兼容了一些机器学习的库，比如 MLlib，不过我没有用过，毕竟现在机器学习的时代都快结束了。很少再有使用场景了，大家感兴趣也可以了解一下。

总结

最后做一个简单的总结，总体上来说想要成为一名合格的算法工程师，hadoop、MapReduce、hive 这些或多或少都需要有所了解。不说能够精通到原理级，但至少需要会用，大概知道里面怎么回事。

这也是工业界和实验室里的最大区别，毕竟学校里的实验数据量也不会很大，直接放在内存里就完事了。所以数据处理一般都是 numpy + pandas 什么的，但是在公司里，几乎没有 pandas 的用武之地，毕竟数据量太大了，不可能都放内存里，必须要借助大数据计算平台来解决。

发布于: 14 小时前阅读数: 6

编程江湖

关注

IT技术分享 2021.11.23 加入

还未添加个人简介

发布

暂无评论

创作场景