CDH+Kylin 三部曲之三：Kylin 官方 demo

作者：爱好编程进阶

2022 年 4 月 20 日
本文字数：1022 字
阅读完需：约 3 分钟

SSH 登录 CDH 服务器
切换到 hdfs 账号：su - hdfs
执行导入命令：${KYLIN_HOME}/bin/sample.sh
导入成功，控制台输出如下：

[](()检查数据

检查数据，执行 beeline 进入会话模式(hive 官方推荐用 beeline 取代 Hive CLI)：

在 beeline 会话模式输入链接 URL：!connect jdbc:hive2://localhost:10000，按照提示输入账号 hdfs，密码直接回车：

用命令 show tables 查看当前的 hive 表，已建好：

![在这里插入图片描述](https://img-blog.csdnimg.cn/2020041 Java 开源项目【ali1024.coding.net/public/P7/Java/git】 1141515814.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2JvbGluZ19jYXZhbHJ5,size_16,color_FFFFFF,t_70)

查出订单的最早和最晚时间，后面构建 Cube 的时候会用到，执行 SQL：select min(PART_DT), max(PART_DT) from kylin_sales; ，可见最早 2012-01-01，最晚 2014-01-01，整个查询耗时 18.87 秒：

![在这里插入图片描述](https://img-blog.csdnimg.cn/20200411141600766.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,te 《一线大厂 Java 面试题解析+后端开发学习笔记+最新架构讲解视频+实战项目源码讲义》开源 xt_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2JvbGluZ19jYXZhbHJ5,size_16,color_FFFFFF,t_70)

[](()构建 Cube：

数据准备完成，可以构建 Kylin Cube 了：

登录 Kylin 网页：http://192.168.50.134:7070/kylin
加载 Meta 数据，如下图：

如下图红框所示，数据加载成功：

在 Model 页面可以看到事实表和维度表，如下图的操作可以创建一个 MapReduce 任务，计算维度表 KYLIN_ACCOUNT 每个列的基数(Cardinality)：

去 Yarn 页面(CDH 服务器的 8088 端口)，如下图，可见有个 MapReduce 类型的任务正在执行中：

上述任务很快就能完成(10 多秒)，此时刷新 Kylin 页面，可见 KYLIN_ACCOUNT 表的 Cardinality 数据已经计算完成了（hive 查询得到 ACCOUNT_ID 数量是 10000，但下图的 Cardinality 值为 10420，Kylin 对 Cardinality 的计算采用的是 HyperLogLog 的近似算法，与精确值有误差，其他四个字段的 Cardinality 与 Hive 查询结果一致）：