macOS 下 Hive 2.x 的安装与配置
1 简介
Hive是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的[SQL]查询功能,可以将 SQL 语句转换为 MapReduce 任务进行运行。其优点是学习成本低,可以通过类 SQL 语句快速实现简单的 MapReduce 统计,不必开发专门的 MapReduce 应用,十分适合数据仓库的统计分析。
它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言,称为 HQL,它允许熟悉 SQL 的用户查询数据。同时,这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 reducer 来处理内建的 mapper 和 reducer 无法完成的复杂的分析工作。
Hive 没有专门的数据格式。 Hive 可以很好的工作在 Thrift 之上,控制分隔符,也允许用户指定数据格式。
Apache Hive 起初由[Facebook]开发,目前也有其他公司使用和开发 Apache Hive,例如[Netflix]等。亚马逊公司也开发了一个定制版本的 Apache Hive,亚马逊网络服务包中的 Amazon Elastic MapReduce 包含了该定制版本。
2 环境
操作系统
Hadoop 版本 hadoop-2.6.0-cdh5.7.0
MySQL 版本
mysql-connector-java5.1.37
Hive 版本 2.3.4
3 安装 Hive
3.1 先确保已经正确安装并运行了 hadoop
3.2 下载 Hive 安装包
将安装包移动至:../hadoop-2.6.0-cdh5.7.0/ 目录下,此目录是本地安装 Hadoop 的目录
移动至此处后,解压缩
tar -xzvf apache-hive-2.3.4-bin.tar.gz
并将解压后的文件名改为 hive,方便配置。
例如本机 Hive 的安装路径为
3.3 配置系统环境变量
3.3.1 修改~/.bash_profile
// 或者修改/etc/profile 文件
添加内容
退出保存后,在终端输入,使环境变量立即生效
4 修改 Hive 配置
4.1 新建文件 hive-site.xml
在 ../hive/conf 下
添加
hive-site.xml
内容
4.2 hive-env.sh
复制 hive-env.sh.template 为 hive-env.sh
修改 hive-env.sh 内容
5 MySQL 权限配置
5.1 给用户赋予权限
以使得该用户可以远程登录数据库:
如果上面查询到有信息,但 host 为 localhost 或其他值,就需要根据实际需求来更新表信息
库名:要远程访问的数据库名称,所有的数据库使用“”表名:要远程访问的数据库下的表的名称,所有的表使用“”用户名:要赋给远程访问权限的用户名称 IP 地址:可以远程访问的电脑的 IP 地址,所有的地址使用“%”密码:要赋给远程访问权限的用户对应使用的密码
使改变立即生效:
6 向/usr/hadoop/hadoop-2.6.2/hive/lib 中添加 mySql 连接库:
6.1 官网下载连接驱动包
6.2 将下好的包解压缩
解压后,将此文件夹下 mysql-connector-java-8.0.15.jar
复制到../hive/lib 下
注意:需要给/tmp 文件夹设置写权限,同时确保 hadoop 不在安全模式下,可以执行此命令使 hadoop 退出安全模式:hadoop dfsadmin -safemode leave
7 启动 Hive
在命令行运行 hive 命令时必须保证 HDFS 已经启动。可以使用 start-dfs.sh 脚本来启动 HDFS。
7.1 如果是第一次启动 Hive,则需要先执行如下初始化命令
7.2 启动 Hive
完成基本的环境配置!
版权声明: 本文为 InfoQ 作者【JavaEdge】的原创文章。
原文链接:【http://xie.infoq.cn/article/97a6f181332ef168cc9aebde1】。文章转载请联系作者。
评论