学大数据需要具备什么基础知识点?
大数据时代不仅带来了先进的技术,也带来了很多求职机会,很多人都开始转型学习大数据知识,那么学大数据需要具备什么基础和知识点?来看看下面的详细介绍吧。
学大数据需要具备什么基础和知识点?学大数据基础包含涵盖大数据体系中的技术点,包括但不限于 Linux、Zookeeper、Hadoop、Yam、Redis、HDFS、MapReduce、Hive、lmpala、Hue、Oozie、Storm、Kafka、Spark、Soark RDD、Spark SQL、Soark Streaming、Sqoop、Flume、CDH、Scala、Hbase、Flink、机器学习等,将离线数据分析、实时数据分析和内存数据计算中的技术点全面覆盖。
学大数据需要具备的基础:
1、Linux
大数据相关软件都在 Linux 上运行,学好 Linux 快速掌握大数据相关技术会有很大的帮助,更好理解 hadoop、hive、hbase、spark 等大数据软件的运行环境和网络环境配置,少踩坑,学会 shell 就能看懂脚本这样能更容易理解和配置大数据集群。
2、Hadoop
大数据代名词,Hadoop 包括几个组件 HDFS、MapReduce 和 YARN,HDFS 是存储数据的地方就像我们电脑的硬盘一样文件都存储在这个上面,MapReduce 是对数据进行处理计算的,有个特点就是不管多大的数据只要给时间就能把数据跑完,但时间可能不是很快所以叫数据的批处理。
3、Zookeeper
安装 Hadoop 的 HA 的时候就会用,Hbase 也会用到。用来存放一些相互协作的信息,这些信息比较小一般不会超过 1M,都是使用的软件对有依赖,对于我们个人来讲只需要把安装正确,让正常的 run 起来就可以了。
4、Mysql
学习完大数据的处理,接下来学习学习小数据的处理工具 mysql 数据库,因为一会装 hive 的时候要用到,mysql 需要掌握到什么层度那?你能在 Linux 上把安装好,运行起来,会配置简单的权限,修改 root 的密码,创建数据库。
5、Sqoop
把 Mysql 里的数据导入到 Hadoop 里。直接把 Mysql 数据表导出成文件再放到 HDFS 上也是一样的,当然生产环境中使用要注意 Mysql 的压力。
6、Hive
这个东西对于会 SQL 语法的来说就是神器,能让你处理大数据变的很简单,不会再费劲的编写 MapReduce 程序。有的人说 Pig 那?和 Pig 差不多掌握一个就可以了。
7、Oozie
管理 Hive 或者 MapReduce、Spark 脚本,还能检查程序是否执行正确,出错了给你发报警并能帮你重试程序,最重要的是还能帮你配置任务的依赖关系。
评论