CDH+Kylin 三部曲之三:Kylin 官方 demo
SSH 登录 CDH 服务器
切换到 hdfs 账号:su - hdfs
执行导入命令:${KYLIN_HOME}/bin/sample.sh
导入成功,控制台输出如下:

[](()检查数据
检查数据,执行 beeline 进入会话模式(hive 官方推荐用 beeline 取代 Hive CLI):

在 beeline 会话模式输入链接 URL:!connect jdbc:hive2://localhost:10000,按照提示输入账号 hdfs,密码直接回车:

用命令 show tables 查看当前的 hive 表,已建好:

查出订单的最早和最晚时间,后面构建 Cube 的时候会用到,执行 SQL:select min(PART_DT), max(PART_DT) from kylin_sales; ,可见最早 2012-01-01,最晚 2014-01-01,整个查询耗时 18.87 秒:

[](()构建 Cube:
数据准备完成,可以构建 Kylin Cube 了:
登录 Kylin 网页:http://192.168.50.134:7070/kylin
加载 Meta 数据,如下图:

如下图红框所示,数据加载成功:

在 Model 页面可以看到事实表和维度表,如下图的操作可以创建一个 MapReduce 任务,计算维度表 KYLIN_ACCOUNT 每个列的基数(Cardinality):

去 Yarn 页面(CDH 服务器的 8088 端口),如下图,可见有个 MapReduce 类型的任务正在执行中:

上述任务很快就能完成(10 多秒),此时刷新 Kylin 页面,可见 KYLIN_ACCOUNT 表的 Cardinality 数据已经计算完成了(hive 查询得到 ACCOUNT_ID 数量是 10000,但下图的 Cardinality 值为 10420,Kylin 对 Cardinality 的计算采用的是 HyperLogLog 的近似算法,与精确值有误差,其他四个字段的 Cardinality 与 Hive 查询结果一致):

接下来开始构建 Cube:

日期范围,刚才 Hive 查询结果是 2012-01-01 到 2014-01-01,注意截止日期要超过 2014-01-01:

在 Monitor 页面可见进度:

去 Yarn 页面(CDH 服务器的 8088 端口),可以看到对应的任务和资源使用情况:

最后
我还为大家准备了一套体系化的架构师学习资料包以及 BAT 面试资料,供大家参考及学习
已经将知识体系整理好(源码,笔记,PPT,学习视频)



评论