数据湖
5 人感兴趣 · 189 次引用
- 最新
- 推荐
Hudi 在 vivo 湖仓一体的落地实践
在增效降本的大背景下,vivo大数据基础团队引入Hudi组件为公司业务部门湖仓加速的场景进行赋能。主要应用在流批同源、实时链路优化及宽表拼接等业务场景。

思科基于 Amoro + Apache Iceberg 构建云原生湖仓实践
思科在 Hadoop 环境 AWS 环境中使用 Amoro 管理 1000+ Iceberg 表,使用 Flink Optimizer 节省了 70% 左右的资源

云原生数据湖为什么要选择腾讯云大数据 DLC,一份性能分析报告告诉你!
腾讯云大数据数据湖计算 DLC 与国内两家知名云厂商的数据湖产品进行了性能对比。结合性能、性价比、使用体验等因素,腾讯云 DLC 在云原生数据湖选择上整体上更具有竞争力。

上新啦!腾讯云云原生数据湖产品 DLC 2.2.5 版本发布,来看特性详解
为了满足企业大数据对联邦查询、高性能交互式查询、成本优化的需求,腾讯云DLC团队正式发布数据湖计算DLC2.2.5版本!该版本推出联邦查询增强、网络配置模块、日志信息、原生函数等重磅特性~全方位提升产品能力,助力企业数据资产分析与管理!

【直播预约中】 腾讯大数据 x StarRocks|构建新一代实时湖仓
随着信息时代的兴起,数据已成为推动业务决策和创新的核心要素;结构化、半结构化等多种类型的数据呈现爆炸式增长,如何高效处理和分析海量数据已经成为关键挑战,结合传统数仓与数据湖优势的湖仓一体(Lakehouse)架构崭露头角,成为大数据领域势不可挡的趋

云原生 Spark UI Service 在腾讯云云原生数据湖产品 DLC 的实践
本文介绍了腾讯DLC团队针对云原生场景下的Spark UI需求,重新设计了Spark UI Service方案,并对开源Spark进行了改造,从成本上降低了日志存储开销,从用户体验上加速了UI访问,从架构上实现了服务的水平扩展。

Presto 设计与实现(十四):SQL 查询过程总结
对于 Presto SQL 语句执行过程,之前的几篇文章已经介绍过 Presto JDBC、基于 ANTLR 4 的词法分析、语法分析、抽象语法树生成和 SQL 查询状态机,今天整体回顾下 SQL 语句完整的执行过程,做个全面的总结。


Presto 设计与实现(十三):查询状态机
为了对 SQL 查询的关键步骤进行标记,Presto 定义了 SQL 查询状态,使用枚举 QueryState 表示,同时使用类 QueryStateMachine 管理 SQL 查询当前状态、SQL 消耗资源和查询状态间合法的切换,每个 SQL 查询只有一个 QueryStateMachine 实例。

Presto 设计与实现(十二):SQL 逻辑计划
逻辑计划:通过对抽象语法树的遍历,将语法树上的 Node 节点转化成 1 个或多个有前后依赖关系的计划,节点遍历完毕即生成一个完整的计划链表,这就是逻辑计划。逻辑计划让 SQL 查询离数据库、表、列和数据更近了一步。

Presto 设计与实现(十):SQL 语法分析
SQL 语句经过词法分析解析后,会转化成 Token 序列作为语法分析器的输入,语法分析器加载所有的语法规则,根据内部定义的解析策略对 Token 序列进行解析。

Presto 设计与实现(九):SQL 词法分析
一条 SQL 语句在实际执行前,会经过一系列处理,其中开始阶段的词法分析、语法分析和生成 AST 的过程是 SQL 查询的前提条件。

Presto 设计与实现(八):Presto JDBC
JDBC:Java Database Connectivity 是 Java 访问数据库的接口规范,访问数据库需要选择对应的 JDBC 实现。MySQL、Oracle 和 Postgresql 都有对应的 JDBC 的实现,Presto 也是如此,Presto 基于 HTTP 协议实现了 JDBC 规范。

Presto 设计与实现(七):Event
编码实现时尽量减少前后依赖,让代码变得简单,易于维护。这里推荐使用观察者模式来解耦,每个分发逻辑只监听关心的事件。当然我们不是从 0 开始,可以从 Airlift Event 开始。

Presto 设计与实现(六):JMX
JMX:Java Management Extensions 是 Java 的一个开发和通信的标准,用于管理监控应用程序状态。

Presto 设计与实现(五):自动配置
Presto 基于 Airlift 构建的分布式 SQL 查询引擎,在 Presto 中 Airlift 起着举足轻重的作用,如果 Presto 是座大厦,那么 Airlift 就是大厦的地基。

Presto 设计与实现(四):动态代码生成 ByteBuddy
动态代码生成就是运行时通过编码的方式定义类的限定名、属性和方法等,并将其转化为可以被 ClassLoader 直接加载的 Java 字节码。