CDH+Kylin 三部曲之三:Kylin 官方 demo
SSH 登录 CDH 服务器
切换到 hdfs 账号:su - hdfs
执行导入命令:${KYLIN_HOME}/bin/sample.sh
导入成功,控制台输出如下:
[](()检查数据
检查数据,执行 beeline 进入会话模式(hive 官方推荐用 beeline 取代 Hive CLI):
在 beeline 会话模式输入链接 URL:!connect jdbc:hive2://localhost:10000,按照提示输入账号 hdfs,密码直接回车:
用命令 show tables 查看当前的 hive 表,已建好:
![在这里插入图片描述](https://img-blog.csdnimg.cn/2020041 Java 开源项目【ali1024.coding.net/public/P7/Java/git】 1141515814.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2JvbGluZ19jYXZhbHJ5,size_16,color_FFFFFF,t_70)
查出订单的最早和最晚时间,后面构建 Cube 的时候会用到,执行 SQL:select min(PART_DT), max(PART_DT) from kylin_sales; ,可见最早 2012-01-01,最晚 2014-01-01,整个查询耗时 18.87 秒:
![在这里插入图片描述](https://img-blog.csdnimg.cn/20200411141600766.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,te 《一线大厂 Java 面试题解析+后端开发学习笔记+最新架构讲解视频+实战项目源码讲义》开源 xt_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2JvbGluZ19jYXZhbHJ5,size_16,color_FFFFFF,t_70)
[](()构建 Cube:
数据准备完成,可以构建 Kylin Cube 了:
登录 Kylin 网页:http://192.168.50.134:7070/kylin
加载 Meta 数据,如下图:
如下图红框所示,数据加载成功:
在 Model 页面可以看到事实表和维度表,如下图的操作可以创建一个 MapReduce 任务,计算维度表 KYLIN_ACCOUNT 每个列的基数(Cardinality):
去 Yarn 页面(CDH 服务器的 8088 端口),如下图,可见有个 MapReduce 类型的任务正在执行中:
上述任务很快就能完成(10 多秒),此时刷新 Kylin 页面,可见 KYLIN_ACCOUNT 表的 Cardinality 数据已经计算完成了(hive 查询得到 ACCOUNT_ID 数量是 10000,但下图的 Cardinality 值为 10420,Kylin 对 Cardinality 的计算采用的是 HyperLogLog 的近似算法,与精确值有误差,其他四个字段的 Cardinality 与 Hive 查询结果一致):
接下来开始构建 Cube:
日期范围,刚才 Hive 查询结果是 2012-01-01 到 2014-01-01,注意截止日期要超过 2014-01-01:
在 Monitor 页面可见进度:
去 Yarn 页面(CDH 服务器的 8088 端口),可以看到对应的任务和资源使用情况:
最后
我还为大家准备了一套体系化的架构师学习资料包以及 BAT 面试资料,供大家参考及学习
已经将知识体系整理好(源码,笔记,PPT,学习视频)
评论