数仓架构“瘦身”,Hologres 5000CU 时免费试用
Hologres 基于创新的 HSAP 架构,可以将您原先数仓架构中的 OLAP 系统(Greenplum、Presto、Impala、ClickHouse)、KV 数据库/Serving 系统(HBase、Redis)统一在一个大数据计算引擎中,并提供快速的离线实时一体化分析能力。
Hologres 5000CU 时,20GB 存储免费试用,前往试用>>
产品核心优势:
1、简化数仓架构,减少数据搬运与多处维护成本
2、实时查询性能强,刷新 TPC-H 30000GB 世界纪录
3、融合湖仓查询,0 ETL 导入离线 MaxCompute 数据
Hologres 使用教程简介
基于 MaxCompute 中 TPC-H 数据集数据和 GitHub 公开事件数据,在阿里云实时数仓 Hologres 上创建 Hologres 的数据库、外部表、内部表、导入数据至内部表中以及使用 Hologres 分别查询内部表和外部表中数据的指引。Hologres 在查询数据方面具有极速响应的优势。
准备环境和资源
开始教程前,请按以下步骤准备环境和资源:
已创建专有网络(VPC)和专有网络交换机,详情请参见创建专有网络和交换机。
访问阿里云免费试用。单击页面右上方的登录/注册按钮,并根据页面提示完成账号登录(已有阿里云账号)、账号注册(尚无阿里云账号)或实名认证(根据试用产品要求完成个人实名认证或企业实名认证)。
成功登录后,在产品类别下选择大数据计算 > 数据计算与分析,在实时数仓 Hologres 卡片上,单击立即试用。
在弹出的试用实时数仓 Hologres 产品的面板上完成参数信息配置。本试用教程以表格中的参数信息为例,未提及参数保持默认值。
勾选服务协议后,单击立即试用,并根据页面提示完成试用申请。单击前往控制台,开启试用体验。
创建数据库
通过 Hologres 快速创建数据库,用于后续存放示例数据进行查询使用。
登录Hologres管理控制台,单击左侧实例列表。
在实例列表页面,单击对应实例名称。
在实例详情页左侧导航栏,单击数据库管理。
在 DB 授权页面,单击右上角新增数据库。
在新增数据库对话框,配置如下参数。
单击确认。
创建表
数据库创建成功后,您需在数据库中创建对应的表。
登录数据库。
在 DB 授权页面的顶部菜单栏,单击元数据管理。
在元数据管理页面,双击左侧目录树中已创建成功的数据库名称,单击确认。
新建外部表。
在 SQL 编辑器页面,单击左上角的 SQL 图标。
新增使用 TPC-H 数据集数据的外部表,TPC-H 数据引用自 TPC,更多信息请参见TPC。在新增的临时 Query 查询页面,选择已创建的实例名和数据库后,请您在 SQL 查询的编辑框输入示例代码,单击运行。示例 SQL 语句用来创建一个映射到 MaxCompute 公共空间 MAXCOMPUTE_PUBLIC_DATA 中 odps_customer_10g、odps_lineitem_10g 等表的外部表,用于后续查询。
新增使用 GitHub 公开事件数据的外部表,数据引用自 GitHub,更多信息请参见基于GitHub公开事件数据集的离线实时一体化实践。单击左上角的 SQL 图标,在新增的临时 Query 查询页面,选择已创建的实例名和数据库后,请您在 SQL 查询的编辑框输入示例代码,单击运行。示例 SQL 语句用来创建一个映射到 MaxCompute 公共空间 MAXCOMPUTE_PUBLIC_DATA 中
github_events
Schema 下名为dwd_github_events_odps
的外部表,用于后续查询。
新建内部表。
在 SQL 编辑器页面,单击左上角的 SQL 图标。
新建使用 TPC-H 数据集数据的内部表。在新增的临时 Query 查询页面,选择已创建的实例名和数据库后,请您在 SQL 查询的编辑框输入如下语句,单击运行。示例 SQL 语句用来创建名称分别为 LINEITEM、ORDERS、PARTSUPP、PART、CUSTOMER、SUPPLIER、NATION 和 REGION 的表,用于后续存储数据。
新增使用 GitHub 公开事件数据的内部表。单击左上角的 SQL 图标,在新增的临时 Query 查询页面,选择已创建的实例名和数据库后,请您在 SQL 查询的编辑框输入示例代码,单击运行。示例 SQL 语句用来创建名称为 gh_event_data 的内部表,并设置 distribution_key、event_time_column、clustering_key 的表属性,用于后续数据导入和高性能查询。
导入示例数据
内部表创建成功后,可以通过以下步骤将数据导入 Hologres 内部表中。外部表在 Hologres 中不存储数据,只进行字段映射。通过外部表您可以使用 Hologres 直接调用存储于 MaxCompute 公共空间 MAXCOMPUTE_PUBLIC_DATA 的数据。
在 SQL 编辑器页面,单击左上角的 SQL 图标。
导入 TPC-H 数据集数据。在新增的临时 Query 查询页面,选择已创建的实例名和数据库后,请您在 SQL 查询的编辑框输入示例代码,单击运行。示例 SQL 语句将 MaxCompute 公共空间 MAXCOMPUTE_PUBLIC_DATA 中 public.odps_customer_10g、public.odps_lineitem_10g 等表中数据导入到对应名称的内部表中,用于后续查询。
导入 GitHub 公开事件数据。单击左上角的 SQL 图标,在新增的临时 Query 查询页面,选择已创建的实例名和数据库后,请您在 SQL 查询的编辑框输入示例代码,单击运行。示例 SQL 语句将 MaxCompute 公共空间 MAXCOMPUTE_PUBLIC_DATA 中的表 dwd_github_events_odps 中前一日的数据导入到内部表中,用于后续查询。由于本次活动中 Hologres 的资源有限,建议您导入并查询少于 15 天的数据。
查询表中数据
在 SQL 编辑器页面,单击左上角的 SQL 图标。
基于 TPC-H 数据集数据查询。在新增的临时 Query 查询页面,选择已创建的实例名和数据库后,请您在 SQL 查询的编辑框输入示例代码,单击运行。下述 SQL 代码均为查询内部表数据使用,如需查询外部表,请将对应代码查询的表名更换为外部表名。基于 TPC-H 演化的 22 条查询语句请参见查询表中数据。
基于 GitHub 公开事件数据查询。单击左上角的 SQL 图标,在新增的临时 Query 查询页面,选择已创建的实例名和数据库后,请您在 SQL 查询的编辑框输入示例代码,单击运行。本文给出一些简单的数据分析语句,您可以基于表中字段,自行设计其他分析语句并查询。下述 SQL 代码均为查询内部表数据使用,如需查询外部表,请将对应代码查询的表名更换为外部表名。
查询昨日最活跃项目。
查询昨日最活跃开发者。
查询昨日编程语言排行。
查询昨日项目新增星标数排行(不考虑取消星标的场景)。
完成
完成以上操作后,您已经成功完成了 Hologres 数据查询操作。查询命令执行成功后,在临时 Query 查询页面下弹出结果页签,显示如下查询数据结果。
基于 TPC-H 数据集数据查询结果示例:
基于 GitHub 公开事件数据查询结果示例:
昨日最活跃项目:
昨日最活跃开发者:
昨日编程语言排行:
昨日项目新增星标数排行:
Hologres 5000CU 时,20GB 存储免费试用, 前往试用>>
了解 Hologres: https://www.aliyun.com/product/bigdata/hologram
版权声明: 本文为 InfoQ 作者【阿里云大数据AI技术】的原创文章。
原文链接:【http://xie.infoq.cn/article/96ddd704ba1533a12e4d5aa70】。文章转载请联系作者。
评论