写点什么

数仓

1 人感兴趣 · 43 次引用

  • 最新
  • 推荐
https://static001.geekbang.org/infoq/c7/c78eb003540140bec8c1d02504cb933b.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

新手必看|StarRocks 入门教程来啦!

作为一款高性能分析型数据库,StarRocks 既支持从各类实时和离线的数据源高效导入数据,也支持直接分析数据湖上多种格式的数据。StarRocks 高可用、高可靠、易运维等特性使其广泛应用于实时数仓、OLAP 报表、数据湖分析等场景并获得了各行业领军企业的青睐。

直播预告 | 字节跳动云原生大数据分析引擎 ByConity 与 ClickHouse 有何差异?

字节跳动在ClickHouse的基础之上设计并开源了分布式基础架构云数仓——ByConity,4月25日晚的这场直播将为大家介绍ByConity社区及其与ClickHouse的功能差异,欢迎大家报名观看!

DawnSql 超越传统数据仓库

用户头像
陈飞
02-17

当前数据仓库的主流架构:分为两个方向一个是 hadoop 体系,一个是 MPP 数据库。DawnSql 做为新的开源分布式数据库,在构建离线数据仓库和实时数据仓库上面是优于传统数据仓库的。

https://static001.geekbang.org/infoq/25/2589d17fbfc3f93ea8b5e54c73c3b378.jpeg?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

Flink X Hologres 构建企业级 Streaming Warehouse

Flink X Hologres构建企业级Streaming Warehouse,本文整理自阿里云资深技术专家,阿里云Hologres负责人姜伟华,在FFA实时湖仓专场的分享。

https://static001.geekbang.org/infoq/ec/ec96d1036585f357ebae1f6ebf8efcd4.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

数据仓库实战教程

用户头像
kingcall
2022-11-21

1. 知识体系完善,从数仓的概念、建模、数仓工具的使用、数仓的落地实践都有,还会有很多小案例,例如股票的连续涨停天数计算,最大涨停板的概率计算,会话分析,复杂时间序列匹配等

https://static001.geekbang.org/infoq/e6/e6561b486820207917aa555eef32e82e.jpeg?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

「Hive 进阶篇」三、HQL 底层执行过程及原理详解

Hive进阶系列(三)Hive底层执行过程和原理详解,聊聊一条hiveQL是如何转换为MapReduce程序执行的

https://static001.geekbang.org/infoq/42/42dc78e4c0f0c2974ade55819181337a.jpeg?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

「Hive 进阶篇」一、详解存储格式及压缩方式

Hive进阶系列(一) 详解hive表 存储格式和压缩方式

https://static001.geekbang.org/infoq/e3/e34141c1a75fdf1d855184dc6264f5e8.jpeg?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

全球第一!新一代云原生实时数仓 SelectDB 登顶 ClickBench 榜单!

用户头像
SelectDB
2022-10-10

近期,在 ClickHouse 发起的分析型数据库性能测试排行榜 ClickBench 中,新一代云原生数仓 SelectDB 强势登顶,性能表现超越一众国内外产品,多项指标排行前列,并在业界最为通用的 c6a.4xlarge, 500gb gp2 机型下排行全球第一!

https://static001.geekbang.org/infoq/62/629b9e2275f0b3188b52b0a56af85138.jpeg?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

clickhouse 准实时数仓能力探索

用户头像
水滴
2022-10-06

通过实践结果对clickhouse作为准实时数仓能力进行总结 数据复用性:通过对数据分层与clickhosue提供的MATERIALIZED view 能力,可以解决数据重复建设,提高数据复用性,同时简化数据处理(不用配置与维护任务调度)。

阿里云云原生实时数仓升级发布,助力企业快速构建一站式实时数仓

9月14日,阿里云云原生实时数仓升级发布。阿里云计算平台的产品专家分享了实时计算Flink版和Hologres构建企业级一站式实时数仓的核心能力升级及新功能解读。

Apache Doris 1.1 特性揭秘:Flink 实时写入如何兼顾高吞吐和低延时

用户头像
SelectDB
2022-07-29

导读:随着数据实时化需求的日益增多,数据的时效性对企业的精细化运营越来越重要,使得实时数仓在这一过程中起到了不可替代的作用。本文将基于用户遇到的问题与挑战,揭秘 Apache Doris 1.1 特性,对 Flink 实时写入 Apache Doris 的优化实现与未来规划进行

https://static001.geekbang.org/infoq/2d/2d0ec85625e5ba190d1e7ecec0d9ee9a.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

带你认识数仓的“规格变更”

本文对DWS变更规格功能的实现原理和如何使用进行介绍。

https://static001.geekbang.org/infoq/23/230fd7868381ae2132208e6186f10473.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

应用实践 | 海量数据,秒级分析!Flink+Doris 构建实时数仓方案

用户头像
SelectDB
2022-06-24

编者荐语:随着领创集团的快速发展,为了满足十亿级数据量的实时报表统计与决策分析,领创集团选择了 Flink + Doris 的实时数仓方案。本篇文章详尽了介绍了此方案的实践过程。

大数据培训实时数仓实践以及架构的演进

用户头像
@零度
2022-05-31

​由于实时数据流的稳定性不如离线数据流,当实时流出现问题后需要离线数据重刷历史数据,因此实时处理部分我们采用了 lambda 架构。大数据架构系列 -- Lambda架构初体验_大数据培训。

大数据培训数仓实践 Kimball 维度建模

用户头像
@零度
2022-05-30

​度量和环境这两个概念构成了维度建模的基础。而所有维度建模也正是通过对度量和及其上下文和环境的详细设计来实现的_大数据培训。

https://static001.geekbang.org/infoq/ec/ec1c76738e356bbdbc36cee15ada4e17.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

看 SparkSQL 如何支撑企业级数仓

企业级数仓架构设计与选型的时候需要从开发的便利性、生态、解耦程度、性能、 安全这几个纬度思考。本文作者:惊帆 来自于数据平台EMR团队

数仓与主题域

用户头像
圣迪
2021-12-21

今日Coding之时,偶尔间发现,目前我们以业务流程划分各项主题的方式似乎有丝许不妥。因此陷入沉思,过去的经验里是怎么去划分主题域、数据域的?于是有了今天的文章

数据大体系(二)——数仓的一般命名规范

用户头像
圣迪
2021-12-11

这一节,我们来讲讲数仓的一般的命名规范。

数据大体系(一)——数据纵向分层

用户头像
圣迪
2021-12-09

通过本篇,你可以对传统的数据仓库分层,有一个大致的了解,知道为什么要分层,以及如何分层。

https://static001.geekbang.org/infoq/21/21aad02903a0f47ee3b5a1ad233cd03b.jpeg?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

Gartner 报告最新解读:数仓 or 数据湖?

用户头像
Kyligence
2021-12-08

Gartner 近期发布了一份“分析查询加速的市场引导报告(Market Guide for Analytics Query Accelerators)”,报告中提到一个新的数据分析细分市场正在兴起,即数仓和数据湖这个模糊地带,小编特别邀请了本司产品总监带大家一同解读这篇专业报告~

如何将外连接向内连接转换?

​​摘要:如果可以将外连接转换为内连接,那么就可以简化查询优化过程。

数仓出现“wait in ccn queue”的时候,怎么迅速定位处理?

​​​​摘要:现网在使用动态负载管理的时候,经常出现很多waitin ccn的情况,大家处理起来就会认为是hung住或者怎么着了,很着急,但wait ccn其实就是一个等待资源的状态,在此总结一个ccn问题处理的博文,ccn的问题都可以通过此帖处理。

数仓是如何与“夏令时”愉快的玩耍!

​​​​​​​​​摘要:主要讲述夏令时的起源,发展,标准化以及如何在GaussDB中查询任一时区的夏令时规则。

https://static001.geekbang.org/infoq/27/27f46d58b8a697beb0e1c9c01156e094.jpeg?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

都说数仓是面向主题建设的,那数仓的主题和主题域又应该怎么划分呢?

数仓在建设过程中,不仅仅要进行横向的分层,也需要根据业务情况进行纵向的主题域划分。为保证整个数仓体系的生命力,数据域需要抽象提炼,长期维护及更新,但不要轻易变动,划分数据域时,既能涵盖当前业务,又能在新业务接入时快速接入或扩展新的数据域。

https://static001.geekbang.org/infoq/ca/ca2d861edb86e953959197892f9c8975.jpeg?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

公司内部使用的数仓命名规范

整理的公司内部使用的数仓研发命名规范,包括字段命名、任务命名、表命名规范等等

数仓_数仓技术文章_InfoQ写作社区