5 分钟在 k8s 上可视化搭建 Kylin5
Kubernetes 环境准备
需要有一个可用的 Kubernetes 环境,如果不会搭建可以搜索引擎检索 kubekey 或者 rancher,有大量快速搭建文档,当然用 kubeadmin 也可以。
如果只是测试的话,可以用 k3s 搭建一个集群,操作比较简单,资源占用也比较少。
使用 CloudEon 搭建 Kylin5
CloudEon 是一款基于 Kubernetes 的开源大数据平台,该平台致力于简化多种大数据服务在 Kubernetes 上的部署和管理。
这里使用 CloudEon 可以极快地在 Kubernetes 上搭建 Kylin5 需要的 HDFS、YARN、Hive、Zookeeper 等组件,省去不少安装的时间。
直接使用 docker 启动 CloudEon。
启动 CloudEon 后,默认密码是 admin/admin。
我们需要在 CloudEon 中创建一个 Kubernetes 集群,绑定我们已有的 Kubernetes 集群环境。
需要填写 kubeconfig,用于 CloudEon 访问 Kubernetes 集群。kubeconfig 的内容一般可以从 Kubernetes 的 master 节点上执行命令cat ~/.kube/config
得到。需要注意一下 server 如果是 hostname 的话,需要保证 CloudEon 能正确访问得到。
成功创建集群后,需要添加节点,输入各个节点的 ssh 密码和账号即可。
然后我们开始安装 Kylin 服务。我已经提前安装好 Kylin 依赖的服务,如果没安装过,会提示先安装。
分配角色实例到指定节点安装
修改初始化配置,需要设置 mysql 配置
约等待几分钟,即可安装成功。
安装成功后可以点击 Kylin 服务,查看服务详情。
也可以通过服务角色,查看 kylin 的实时日志。
通过服务的 web 地址可以跳转 kylin 首页,地址一是通过 hostname 访问,地址二是通过 ip 地址访问。
默认密码是 ADMIN/KYLIN
成功登陆后可以看到 kylin5 全新的界面,好看了不少。
导入 Kylin5 样本数据
使用 kubectl 进入 kylin 的 pod 中
进入 pod 后,直接执行脚本导入内置数据集和样本项目。
等待几分钟后,可以看到数据都导入完成了,一些 sql 脚本也用 hive 命令执行完了。
回到页面上可以看到多了新的项目和一些 hive 表数据。
构建 cube
点击 model 页面,可以看到多了一个 cube
打开后,可以看到数据表直接的关系,很直看到都是 inner join 还有关联的字段。
点击 index,可以看到默认导入的一些聚合组合还有 index,可以看到状态都是没有构建的。
点击构建,可以选择增量或者全量,这里选择全量。
查看监控,可以看到构建的 job
构建完成后可以看到 cube 的信息更新了
查询数据
执行 sql 查询
可以看到 answer 的是 cube 而不是 hive(spark)。
再执行一个查询
可以看到 answer 的是 hive(spark),因为该查询语句没有命中预构建的 cube,是直接用的 spark 进行即席查询的。
点击跳转,可以跳到 spark 的 ui 页面查看执行计划。
欢迎加入社区技术交流
公众号:CloudEon 开源
微信社区:
相关链接:
Gitee:https://gitee.com/dromara/CloudEon
评论