写点什么

CDH+Kylin 三部曲之三:Kylin 官方 demo

  • 2022 年 4 月 20 日
  • 本文字数:1022 字

    阅读完需:约 3 分钟

  1. SSH 登录 CDH 服务器

  2. 切换到 hdfs 账号:su - hdfs

  3. 执行导入命令:${KYLIN_HOME}/bin/sample.sh

  4. 导入成功,控制台输出如下:


[](()检查数据

  1. 检查数据,执行 beeline 进入会话模式(hive 官方推荐用 beeline 取代 Hive CLI):



  1. 在 beeline 会话模式输入链接 URL:!connect jdbc:hive2://localhost:10000,按照提示输入账号 hdfs,密码直接回车:



  1. 用命令 show tables 查看当前的 hive 表,已建好:


![在这里插入图片描述](https://img-blog.csdnimg.cn/2020041 Java 开源项目【ali1024.coding.net/public/P7/Java/git】 1141515814.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2JvbGluZ19jYXZhbHJ5,size_16,color_FFFFFF,t_70)


  1. 查出订单的最早和最晚时间,后面构建 Cube 的时候会用到,执行 SQL:select min(PART_DT), max(PART_DT) from kylin_sales; ,可见最早 2012-01-01,最晚 2014-01-01,整个查询耗时 18.87 秒:


![在这里插入图片描述](https://img-blog.csdnimg.cn/20200411141600766.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,te 《一线大厂 Java 面试题解析+后端开发学习笔记+最新架构讲解视频+实战项目源码讲义》开源 xt_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2JvbGluZ19jYXZhbHJ5,size_16,color_FFFFFF,t_70)

[](()构建 Cube:

数据准备完成,可以构建 Kylin Cube 了:


  1. 登录 Kylin 网页:http://192.168.50.134:7070/kylin

  2. 加载 Meta 数据,如下图:



  1. 如下图红框所示,数据加载成功:



  1. 在 Model 页面可以看到事实表和维度表,如下图的操作可以创建一个 MapReduce 任务,计算维度表 KYLIN_ACCOUNT 每个列的基数(Cardinality):



  1. 去 Yarn 页面(CDH 服务器的 8088 端口),如下图,可见有个 MapReduce 类型的任务正在执行中:



  1. 上述任务很快就能完成(10 多秒),此时刷新 Kylin 页面,可见 KYLIN_ACCOUNT 表的 Cardinality 数据已经计算完成了(hive 查询得到 ACCOUNT_ID 数量是 10000,但下图的 Cardinality 值为 10420,Kylin 对 Cardinality 的计算采用的是 HyperLogLog 的近似算法,与精确值有误差,其他四个字段的 Cardinality 与 Hive 查询结果一致):



  1. 接下来开始构建 Cube:



  1. 日期范围,刚才 Hive 查询结果是 2012-01-01 到 2014-01-01,注意截止日期要超过 2014-01-01:



  1. 在 Monitor 页面可见进度:



  1. 去 Yarn 页面(CDH 服务器的 8088 端口),可以看到对应的任务和资源使用情况:


最后

我还为大家准备了一套体系化的架构师学习资料包以及 BAT 面试资料,供大家参考及学习


已经将知识体系整理好(源码,笔记,PPT,学习视频)





用户头像

还未添加个人签名 2022.04.13 加入

还未添加个人简介

评论

发布
暂无评论
CDH+Kylin三部曲之三:Kylin官方demo_Java_爱好编程进阶_InfoQ写作社区