写点什么

数据湖

5 人感兴趣 · 189 次引用

  • 最新
  • 推荐
https://static001.geekbang.org/infoq/1c/1cf3d01175394e0a8367951f8c92d773.jpeg?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

实时湖仓技术选型,企业如何借实时湖仓赢在“数据驱动”时代

本文从技术的角度,为大家解析实时湖仓的存储原理以及生态选型,为企业建设实时湖仓给出参考意见,助力企业借实时湖仓赢在“数据驱动”时代。

https://static001.geekbang.org/infoq/b3/b3773113bcf3e4a7e224130bc88faa28.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

直播预约丨《实时湖仓实践五讲》第五讲:实时湖仓领域的最佳实践解析

【直播预约】《实时湖仓实践第五讲:实时湖仓领域的最佳实践解析》将于12月20日 15:00-16:00开播,详解实时湖仓产品解决方案,快快预约直播吧!

https://static001.geekbang.org/infoq/d2/d239636e681bf994bda0352ab9ecbd2a.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

Apache Doris 2.0.3 版本正式发布

Apache Doris 2.0.3 版本已于 2023 年 12 月 14 日正式发布,该版本对复杂数据类型、统计信息收集、倒排索引、数据湖分析、分布式副本管理等多个功能进行了优化,欢迎大家下载体验。

基于 Flink 构建实时数据湖的实践

本文整理自火山引擎云原生计算研发工程师王正和闵中元在本次 CommunityOverCode Asia 2023 数据湖专场中的《基于 Flink 构建实时数据湖的实践》主题演讲。

Hudi 在 vivo 湖仓一体的落地实践

在增效降本的大背景下,vivo大数据基础团队引入Hudi组件为公司业务部门湖仓加速的场景进行赋能。主要应用在流批同源、实时链路优化及宽表拼接等业务场景。

https://static001.geekbang.org/infoq/49/49fa2e9659caef9e4c60d90d7f9c1d88.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

直播预约丨《实时湖仓实践五讲》第四讲:实时湖仓架构与技术选型

实时湖仓系列直播第四期要来了——《实时湖仓架构与技术选型》,通过实时湖仓应用场景、存储原理、生态选型三个方面的讲解,为大家介绍企业如何借实时湖仓赢在“数据制胜”时代

https://static001.geekbang.org/infoq/25/25db9fda54581246ede1972a3db87aeb.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

思科基于 Amoro + Apache Iceberg 构建云原生湖仓实践

思科在 Hadoop 环境 AWS 环境中使用 Amoro 管理 1000+ Iceberg 表,使用 Flink Optimizer 节省了 70% 左右的资源

https://static001.geekbang.org/infoq/fe/fefc22f084451a63bef7697bb344cdc7.jpeg?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

如何构建新一代实时湖仓?袋鼠云基于数据湖的探索升级之路

在本篇文章中,将通过实时入湖和物化视图两个方面,介绍袋鼠云数栈在构建实时湖仓系统上的探索与落地实践,及未来规划。

https://static001.geekbang.org/infoq/4c/4c004fbb8dc63d99d01ef3a77d70877e.jpeg?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

从理论到实践,实时湖仓功能架构设计与落地实战

实时湖仓是「实时计算」和「数据湖」的一种结合应用场景,并不是具体指一个产品模块。本文主要介绍了平台通过相关功能的设计,让数据开发可以更简单更直观地了解 Flink Catalog、数据湖、流批一体等概念,并在实际业务场景中更方便地去落地实践。

https://static001.geekbang.org/infoq/54/54e71a8b13790220542c7663b9ff50de.jpeg?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

云原生数据湖为什么要选择腾讯云大数据 DLC,一份性能分析报告告诉你!

腾讯云大数据数据湖计算 DLC 与国内两家知名云厂商的数据湖产品进行了性能对比。结合性能、性价比、使用体验等因素,腾讯云 DLC 在云原生数据湖选择上整体上更具有竞争力。

定义现代化实时数据仓库,SelectDB 全新产品形态全面发布

2023 飞轮科技产品发布会在线上正式召开,发布 SelectDB 全新产品形态!

“00 后”整顿职场,终于轮到网安圈了

整顿网安职场,还是得靠腾讯云原生安全数据湖!

https://static001.geekbang.org/infoq/1d/1d0e062a43a7202f36c9fa1af2bfabb5.jpeg?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

上新啦!腾讯云云原生数据湖产品 DLC 2.2.5 版本发布,来看特性详解

为了满足企业大数据对联邦查询、高性能交互式查询、成本优化的需求,腾讯云DLC团队正式发布数据湖计算DLC2.2.5版本!该版本推出联邦查询增强、网络配置模块、日志信息、原生函数等重磅特性~全方位提升产品能力,助力企业数据资产分析与管理!

https://static001.geekbang.org/infoq/1f/1fb166e1ace54b34ab7d76bcfd8cd703.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

【直播预约中】 腾讯大数据 x StarRocks|构建新一代实时湖仓

随着信息时代的兴起,数据已成为推动业务决策和创新的核心要素;结构化、半结构化等多种类型的数据呈现爆炸式增长,如何高效处理和分析海量数据已经成为关键挑战,结合传统数仓与数据湖优势的湖仓一体(Lakehouse)架构崭露头角,成为大数据领域势不可挡的趋

https://static001.geekbang.org/infoq/f1/f1f7d2e62e70af51e9b2408fce0289bf.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

一文了解袋鼠云在实时数据湖上的探索与实践

近日,袋鼠云大数据引擎专家郝卫亮,为大家带来了《袋鼠云在实时数据湖上的探索与实践》主题分享,帮助大家能了解到什么是实时数据湖、如何进行数据湖选型及数据平台建设数据湖的经验。

https://static001.geekbang.org/infoq/44/44afd60097a04afea338f91b882ca718.jpeg?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

云原生 Spark UI Service 在腾讯云云原生数据湖产品 DLC 的实践

本文介绍了腾讯DLC团队针对云原生场景下的Spark UI需求,重新设计了Spark UI Service方案,并对开源Spark进行了改造,从成本上降低了日志存储开销,从用户体验上加速了UI访问,从架构上实现了服务的水平扩展。

https://static001.geekbang.org/infoq/01/01485c1c30d2fce30014ef2c8cf44c66.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

Paimon+StarRocks 湖仓一体数据分析方案

本文整理自阿里云高级开发工程师曾庆栋(曦乐)在 Streaming Lakehouse Meetup 分享的内容,深入探讨了传统数据仓库分析、Paimon+StarRocks湖仓一体数据分析、StarRocks 与 Paimon 的协同使用方法与实现原理,以及StarRocks 社区湖仓分析的未来规划。

https://static001.geekbang.org/infoq/c8/c85e1d1473cfc7920401c71eaa093621.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

Presto 设计与实现(十四):SQL 查询过程总结

对于 Presto SQL 语句执行过程,之前的几篇文章已经介绍过 Presto JDBC、基于 ANTLR 4 的词法分析、语法分析、抽象语法树生成和 SQL 查询状态机,今天整体回顾下 SQL 语句完整的执行过程,做个全面的总结。

https://static001.geekbang.org/infoq/fc/fcc772c1021eb231e3dba460a6b75082.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

Presto 设计与实现(十三):查询状态机

为了对 SQL 查询的关键步骤进行标记,Presto 定义了 SQL 查询状态,使用枚举 QueryState 表示,同时使用类 QueryStateMachine 管理 SQL 查询当前状态、SQL 消耗资源和查询状态间合法的切换,每个 SQL 查询只有一个 QueryStateMachine 实例。

https://static001.geekbang.org/infoq/8c/8c0062dd64222826cc73d4e0efa6f5b7.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

Presto 设计与实现(十二):SQL 逻辑计划

逻辑计划:通过对抽象语法树的遍历,将语法树上的 Node 节点转化成 1 个或多个有前后依赖关系的计划,节点遍历完毕即生成一个完整的计划链表,这就是逻辑计划。逻辑计划让 SQL 查询离数据库、表、列和数据更近了一步。

https://static001.geekbang.org/infoq/17/173f5475f266029adb6e3fb4ee296498.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

Presto 设计与实现(十):SQL 语法分析

SQL 语句经过词法分析解析后,会转化成 Token 序列作为语法分析器的输入,语法分析器加载所有的语法规则,根据内部定义的解析策略对 Token 序列进行解析。

https://static001.geekbang.org/infoq/50/505441fd09516012327c7ed4bba88b76.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

Presto 设计与实现(九):SQL 词法分析

一条 SQL 语句在实际执行前,会经过一系列处理,其中开始阶段的词法分析、语法分析和生成 AST 的过程是 SQL 查询的前提条件。

https://static001.geekbang.org/infoq/5a/5acf4386437563b79868295c1680fbfd.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

Presto 设计与实现(八):Presto JDBC

JDBC:Java Database Connectivity 是 Java 访问数据库的接口规范,访问数据库需要选择对应的 JDBC 实现。MySQL、Oracle 和 Postgresql 都有对应的 JDBC 的实现,Presto 也是如此,Presto 基于 HTTP 协议实现了 JDBC 规范。

https://static001.geekbang.org/infoq/87/8754e0511e9a32a7ee84ad1d75dd997f.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

Presto 设计与实现(七):Event

编码实现时尽量减少前后依赖,让代码变得简单,易于维护。这里推荐使用观察者模式来解耦,每个分发逻辑只监听关心的事件。当然我们不是从 0 开始,可以从 Airlift Event 开始。

https://static001.geekbang.org/infoq/e7/e75288df7fd3b3c1f8c07e3ae6a965f0.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

Presto 设计与实现(六):JMX

JMX:Java Management Extensions 是 Java 的一个开发和通信的标准,用于管理监控应用程序状态。

https://static001.geekbang.org/infoq/01/0125fa40d9f16581a5c3c3a0b27e8ea6.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

Presto 设计与实现(五):自动配置

Presto 基于 Airlift 构建的分布式 SQL 查询引擎,在 Presto 中 Airlift 起着举足轻重的作用,如果 Presto 是座大厦,那么 Airlift 就是大厦的地基。

https://static001.geekbang.org/infoq/59/597fc5888db49c9effda8c9f0e943cef.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

Presto 设计与实现(四):动态代码生成 ByteBuddy

动态代码生成就是运行时通过编码的方式定义类的限定名、属性和方法等,并将其转化为可以被 ClassLoader 直接加载的 Java 字节码。

数据湖_数据湖技术文章_InfoQ写作社区