使用 Presto 和 Alluxio 在 AWS 上搭建高性能平台来支持实时游戏服务

2022 年 8 月 19 日
北京
本文字数：2604 字
阅读完需：约 9 分钟

概要速览

美国艺电 (EA) 是游戏行业的翘楚，每年为全球几十亿用户提供数十款游戏。能否针对 EA 的在线服务做出近实时决策对于业务发展至关重要。本文介绍了在 AWS 上搭建的基于 Presto 和 Alluxio 的数据平台，如何为游戏产业提供即时响应的在线服务。

EA 的数据与人工智能部门搭建了数百个平台，来管理游戏和用户每天产生的 PB 级数据。这些平台包含从实时数据导入到 ETL 工作流在内的各类数据分析作业。部门产生的格式化数据已经被公司高管、制作人、产品经理、游戏工程师和设计师等广泛采纳，用于市场营销和货币化、游戏设计以及提升客户参与度、玩家留存率和终端用户体验。

用例

EA 的在线服务需要能够获取近实时信息，这对于制定业务相关的决策（如推广活动和故障排查）至关重要。这些服务包括但不限于实时数据可视化、仪表板（dashboarding) 和会话分析，我们的团队正在积极寻找可以支持这些用例的框架。

在 EA，为获取支持决策的数据分析结果，我们采用了诸如 Tableau 和 Dundas 等一系列的数据可视化工具。这些工具通常连接多个数据源，例如 MySQL DB、AWS S3 或 HDFS。用户可能同时从多个数据源加载数据来运行计算复杂度较高的算法。由于数据加载是 I/O 密集型的，因此可能成为严重的性能瓶颈。尤其当相同的数据需要被多次加载时，性能瓶颈问题可能更严重。因此，我们需要一种解决方案，通过在本地缓存数据的方式来降低数据的访问开销。

仪表板是另一个常见的用例，用于实时追踪用户参与度、客户满意度或系统状态。在这些场景下，数据量通常是 GB 级的，但需要能够对频繁的信息刷新进行即时处理。目前，我们使用 Redshift 等商业数据库来处理时间敏感型数据，希望寻求一种在不降低性能的情况下削减成本的替代方案。

我们最近开发了一款汇报式聊天机器人，来提供即时的游戏相关分析，例如实时用户满意度和实时利润分析。该系统的后端运行 Presto，PB 级的数据存储在 S3 上。聊天机器人会将用户的提问转换为 ANSI SQL 查询语句，并在 Presto 集群上运行这些查询。查询通常会涉及复杂的计算过程，例如在跨数据集搜索后进行预测和合并。我们迫切希望找到一种解决方案，与基于 S3 存储的数据集互补，确保在不增加成本的情况下提高性能。

架构

为了服务这些具有近实时需求的不同用例，我们搭建并评估了以 Presto 为查询引擎，S3 为数据存储，Alluxio 为作业数据集缓存层的数据平台。文中，我们模拟了上述在当前生产环境中搭建的基于 S3 的 Presto（没有 Alluxio）架构，与环境设置（Presto 和 S3）相同但部署了 Alluxio 的技术方案进行比较。架构如下图所示：

关于设置的具体信息如下：

√ 每个实例启动并置的 Presto 和 Alluxio 服务。

√ 硬件方面，我们使用了三个 h1.8xlarge AWS 实例，每个实例上都挂载了 8TB 临时磁盘，供 Alluxio 把数据缓存到 Presto 的本地位置。

S3 作为底层持久文件系统挂载到 Alluxio。

√ Presto 配置了两个目录；一个连接到我们现有的 Hive metastore，关联到存储在外部 S3 上的基准测试数据集，另一个连接到一个单独的 Hive metastore，其中包含在 Alluxio 中创建的基准测试数据表。

√ 我们在 S3 上使用相同的数据集进行性能比较，并通过 alluxio fs distributedLoad /testDB 指令将数据预加载到 Alluxio。

√ 为了提升处理海量小文件时的查询性能，我们在 alluxio-site.properties 中启用了元数据缓存功能来进行性能调优。

alluxio.user.metadata.cache.enabled=truealluxio.user.metadata.cache.max.size=100000alluxio.user.metadata.cache.expiration.time=10min

复制代码

基准测试结果

我们选取了代表各类工作负载的四个独立基准测试。基线（baseline)是 Presto 直接查询 S3 时的性能。

基准测试 1

测试 1 是我们对玩家在游戏中事件的内部合成快照，代表 I/O 密集型用例。测试的三个数据集的总数据大小分别为 1GB、10GB 和 100GB，文件为 ORC 格式。每个数据集都是使用相同的 DDL 创建的，包含 49 个 cols（列）、40 个 varchar、5 个布尔值和 4 个映射。基准测试查询选取所有列以及针对一个 varchar 字段的过滤条件。

结果

使用 Alluxio 缓存数据后，Presto 的性能比基线直接查询 S3 时的性能快 2 ~ 7 倍。

基准测试 2

使用游戏元数据和用户参与记录模拟数据可视化。这是一个典型的 CPU 和 I/O 密集型查询。我们一共选用了两组数据集和两个查询，分别是 Tableau 和 Dundas 中的常用查询，查询选择所有符合日期过滤条件的列，然后对日期字段进行 GROUP BY 和 ORDER BY 操作。在这个测试中，我们特意禁用了（已显示出卓越性能提升的）Alluxio 元数据缓存功能，以便了解数据缓存在这里起到的作用。

结果

在没有元数据缓存的情况下，在 Dundas 数据集上使用 Alluxio 的 Presto 查询速度比 S3 快 2.75 倍，在 Tableau 数据集上比 S3 快 5.1 倍。

基准测试 3

使用包含海量小文件的数据集来模拟我们的仪表板用例。数据集是一批 2MB 的文件，总数分别是 50、500 和 5000 个文件。使用的查询是聚合每个日期条目数的 select 查询。

结果

使用元数据缓存功能的 Alluxio 比 S3 快 1.2 ~ 5.9 倍。如果不启用元数据缓存，Alluxio 实现的性能提速仅为 1 ~1.35 倍。启用元数据缓存可通过记忆元数据、识别热数据和增加副本来显著缩短执行时间。

基准测试 4

模拟对话机器人，使用的数据集是每日游戏性能的快照。为模拟 CPU 密集型查询，该查询包含多个计算阶段，将整数字段( integer field) 转换为 HyperLogLog，然后合并, 再选择基数，最后将 integer 和 varchar 字段作为过滤条件得出结果。

结果

不使用元数据缓存的 Alluxio 可以将查询时间从 85.2 秒缩短到 3 秒，性能提高了 27 倍。

结论

本文探讨了一个支持游戏行业的在线服务即时响应的创新平台，平台使用 Presto 作为计算引擎，把 Alluxio 作为 Presto 和 S3 存储之间的数据编排层。我们通过数据可视化、仪表板和会话聊天机器人三个真实行业案例对该平台进行性能评估。

初步测试结果表明， Presto+Alluxio 的部署在所有情况下的性能都显著优于 S3。特别是当 Alluxio 启用元数据缓存功能后在处理海量小文件时更是实现了高达 5.9 倍的性能提升。Alluxio 通过管理所分配的临时磁盘，将 S3 中的数据缓存到 Presto 的本地位置，从而实现存储和计算的分离。在测试的每个场景中，我们可以观察到性能提升主要得益于 Alluxio 的高级缓存管理能力，能够针对数据的冷热程度来区别化创建不同数量的副本。

文章作者：
Teng Wang, Du Li, Yu Jin and Sundeep Narravula
原文发表于 2020 年 8 月 6 日

想要获取更多有趣有料的【活动信息】【技术文章】【大咖观点】，请关注[Alluxio 智库]：

发布于: 刚刚阅读数: 4

原文链接:【http://xie.infoq.cn/article/f589725e22f8465ed1565dd61】。文章转载请联系作者。

Alluxio

关注

还未添加个人签名 2022.01.04 加入

Alluxio是全球首个面向基于云原生数据分析和人工智能的开源的资料编排技术！能够在跨集群、跨区域、跨国家的任何云中将数据更紧密地编排接近数据分析和AI/ML应用程序，从而向上层应用提供内存速度的数据访问。

发布

暂无评论

创作场景