写点什么

Dremio 推出在 AWS 云上运行的数据湖服务

用户头像
水滴
关注
发布于: 2 小时前
Dremio 推出在 AWS 云上运行的数据湖服务

Dremio 今天推出了一项云服务,该服务基于内存 SQL 引擎创建数据湖,该引擎针对存储在基于对象的存储系统中的数据启动查询。


Dremio 首席产品官 Tomer Shiran 表示,目标是让组织更轻松地利用名为 Dremio Cloud 的数据湖,而无需雇用内部 IT 团队来管理它。他说,组织现在可以在短短五分钟内开始访问 Dremio Cloud。


基于 Dremio 现有的 SQL Lakehouse 平台,Dremio Cloud 服务运行在 Amazon Web Services (AWS)公共云上。Shiran 指出,它在采用基于对象的存储系统的平台上提供数据仓库的所有好处,以降低构建数据湖的总成本。

构建 Dremio 云

Dremio Cloud 基于微服务架构,其中包括一个服务网格,可通过 Dremio Cloud 控制平面按需提供基础设施资源。Shiran 说,因此,当平台空闲时,客户不会产生 Dremio 或 AWS 成本。


他补充说,这种方法还消除了聚合表、提取数据或使用单独的在线分析处理 (OLAP) 多维数据集以与 SQL 兼容的方式构建数据的需要。Shiran 补充说,这也意味着您不需要将存储在基于对象的存储系统中的数据复制到专有数据仓库中以提供对基于 SQL 的应用程序的访问。


使用密钥管理工具对静态和传输中的数据进行加密,以确保客户端、控制平面和数据平面之间的安全通信。基于角色的访问控制 (RBAC) 使公司能够定义系统中每个数据集和对象的权限。此外,公司可以使用 Okta 等身份管理平台调用 Dremio 中现有的用户和组定义,以实施零信任安全策略,Shiran 说。他补充说,Dremio Cloud 已经实现了 SOC 2 合规性。


Dremio 最近发起了一项 Dart 计划,旨在利用其开发的专有加速技术在未来 12 个月内将 SQL 查询的性能提高五倍。这项工作的核心是 Gandiva,这是一个工具包,可以使用 Apache Arrow 中的内存缓冲区在现代处理器上进行矢量化执行,这是 Dremio 共同创建的一种开源列式数据格式。


该公司还维护称为数据反射的源数据的物理优化表示。然后,查询优化器可以通过使用一个或多个数据反射来部分或完全显示查询结果来加速查询,而不必为每个启动的查询处理原始数据。


Dremio 还提供对查询计划缓存的支持,它消除了重复查询的开销和延迟,此外还有一个高性能编译器,该编译器支持更大和更复杂的 SQL 语句,同时采用机器学习算法来减少所需的计算资源量启动 SQL 查询。Dremio 说,云存储读取操作在某些工作负载中占查询执行成本的 30% 到 60%,该公司正在通过增强其提供的扫描过滤器下推功能来减少从云对象存储读取的数据量。

让数据湖更简单

虽然数据湖的概念已经存在一段时间了,但许多组织在部署它们时却步履蹒跚,因为管理这种规模的 PB 数据已被证明太具有挑战性。例如,基于 Hadoop 的数据湖通常会随着添加更多数据而迅速变成数据沼泽。“数据团队处境艰难,”希兰说。


Dremio 正在通过在其平台中嵌入一系列 SQL 加速和数据管理工具来解决这个问题,以优化基于云计算环境中随时可用的对象存储系统跨数据湖的查询。现在的挑战是说服历来依赖传统数据仓库的组织重新考虑基于平台的数据湖方法,该方法有望简化访问云中 PB 级数据的过程。

发布于: 2 小时前阅读数: 3
用户头像

水滴

关注

技术无产阶级 2020.03.23 加入

弱小和无知不是生存的障碍,傲慢才是。

评论

发布
暂无评论
Dremio 推出在 AWS 云上运行的数据湖服务