如何搭建 Hive 环境
Hive 是一个 Hadoop 平台的上的数据仓库工具,可以将结构化的的数据映射成一张表,并提供了类似 SQL 的查询的功能。
HIve 没有集群的概念,只需要将 Hive 部署在 Hadoop 平台上就可以使用。
本文来介绍一种搭建 Hive 环境的方式。
搭建 Hive 所需的软件和环境:
搭建了 Hadoop 集群的环境
Hive-1.2.2
搭建 Hadoop 集群可以参照我之前的文章,本文继续在之前的环境中进行,具体的机器名称及 IP 以自己的实际环境为准。
软件安装
将 Hive 安装包解压到目标目录下:
然后将 hive 目录重命名:
软件配置
需要配置 hive 的环境参数:
配置 hadoop 的位置:
在启动 hive 之前,需要先启动 hdfs 和 yarn:
在 hdfs 上创建 hive 的根目录,并赋予权限:
然后就可以启动 hive了:
hive 到这里就可用了,但是 hive 在开始使用之后,会将创建的表的元数据存储在自带的本地数据库中,这样不安全,所以一般都会将这些数据单独存储到 MySQL中。
metastore 配置
在这里我介绍一种安装 MySQL 的方式,但这不是唯一的方式,可以根据自己的情况自行选择安装方式。
安装 mysql
mysql 设置
获取 MySQL 密码
然后就可以登录 MySQL:
修改密码,后续就可以使用 root进行登录了:
Hive 连接 MySQL
Hive 连接MySQL 需要添加一个 mysql 的 connector,拷贝到 hive 的 lib 目录下:
然后创建一个 hive-site.xml
的配置文件:
在配置文件中填充以下内容,就是连接 MySQL 所需的配置:
然后重新启动 hive:
正常启动后可以发现 mysql 中多了一个 metastore 的数据库,这个数据库存储着 hive 的中数据表的元数据。
文 / Rayjun
本文首发于公众号 Rayjun
版权声明: 本文为 InfoQ 作者【Rayjun】的原创文章。
原文链接:【http://xie.infoq.cn/article/bbd34a534dc12d60916d64821】。文章转载请联系作者。
评论