数据仓库

0 人感兴趣 · 21 次引用

  • 推荐
  • 最新
https://static001.geekbang.org/infoq/b9/b9e1321f90a8b7c6423f6657518e9d83.jpeg?x-oss-process=image/resize,w_416,h_234

技术分享丨数据仓库的建模与 ETL 实践技巧

用户头像
华为云开发者社区 2020 年 8 月 17 日

摘要:如何搭建数据仓库,在这个过程中都应该遵循哪些方法和原则,项目实践中有哪些技巧。

https://static001.geekbang.org/infoq/5a/5a36e9d6b0e069eec8c8140df6c6e718.png?x-oss-process=image/resize,w_416,h_234

什么是实时数仓,与离线数仓的区别是什么?

用户头像
程序员小陶 2020 年 5 月 12 日

今天主要聊聊离线数仓和实时数仓的区别。

https://static001.geekbang.org/infoq/49/4961f3a9bbc2f9e74231bb948163c1d2.jpeg?x-oss-process=image/resize,w_416,h_234

Greenplum 性能优化之路 --(三)ANALYZE

用户头像
小小的一朵云 2020 年 9 月 30 日

Greenplum 性能优化之路——实现方式选择优化策略

https://static001.geekbang.org/infoq/e2/e26a2b5fa22685d28881a3f08db0e21e.png?x-oss-process=image/resize,w_416,h_234

浅谈数据中台

用户头像
WindyQin 2020 年 4 月 22 日

数据中台的概念最是阿里提出来的是为了实现数据的分层和水平解耦,提供数据服务能力。看了那么多中台的概念,对中台也有些自己的理解。笔者认为中台主要是为了提供全域的数据服务。主要包括以下4部分:数据资产、数据治理、数据模型、数据服务。

https://static001.geekbang.org/infoq/b6/b6e6c1c98cb3e6d1732bde572e7ef2dd.jpeg?x-oss-process=image/resize,w_416,h_234

数据分析师应该了解的数据湖

用户头像
WindyQin 2020 年 4 月 22 日

数据湖是一个集中式存储库,允许您以任意规模存储所有结构化和非结构化数据。您可以按原样存储数据(无需先对数据进行结构化处理),并运行不同类型的分析 – 从控制面板和可视化到大数据处理、实时分析和机器学习,以指导做出更好的决策。

https://static001.geekbang.org/infoq/2f/2f9f5ab2bc72f7582b1faa6bbae8fa75.jpeg?x-oss-process=image/resize,w_416,h_234

如何设计数据中台

用户头像
WindyQin 2020 年 5 月 29 日

数据中台建设方针:横向规划,各个击破。

https://static001.geekbang.org/infoq/07/07bf01d04192185bfea489dc9cb694bf.png?x-oss-process=image/resize,w_416,h_234

Impala UDTF 功能实现

用户头像
小鹏 2020 年 5 月 5 日

如果你需要将表中的一行记录转成多行,Hive 中可以使用 UDTF 做到,然而 Impala 中没有实现 UDTF,那么该怎么办?

银行业数据治理之「数据资产管理」

用户头像
数据司令 2020 年 6 月 17 日

随着18年银保监发文《银行业金融机构数据治理指引》,各金融机构纷纷开始了新一轮的数据治理的相关工作。然而在金融机构进行数据治理的过程中,涉及的领域和相关的工作非常多,本文是笔者结合自己的工作经验,从数据资产管理的角度做了一些总结和思考。

https://static001.geekbang.org/infoq/0b/0b8c33655659436546bbd8050c50b89d.jpeg?x-oss-process=image/resize,w_416,h_234

数据湖引擎是什么鬼

用户头像
WindyQin 2020 年 5 月 9 日

数据湖引擎是一种开源软件解决方案或云服务,它通过一组统一的api和数据模型为分析工作负载的各种数据源提供关键功能。数据湖引擎解决了快捷访问、加速分析处理、保护和屏蔽数据、管理数据集以及提供跨所有数据源的统一数据目录等方面的关键需求。

奈学:数据湖和数据仓库的区别有哪些?

用户头像
古月木易 2020 年 6 月 28 日

储存方面:数据湖中数据为非结构化的,所有数据都保持原始形式;存储所有数据,并且仅在分析时再进行转换。数据仓库就是数据通常从事务系统中提取,在将数据加载到数据仓库之前,会对数据进行清理与转换。

https://static001.geekbang.org/infoq/d2/d2bafa8f0d68b2788b3b4c3f823ad749.jpeg?x-oss-process=image/resize,w_416,h_234

我嗅到了数据开发工程师的危机

用户头像
无箭的丘比特 2020 年 6 月 24 日

云厂商的一系列新产品的推出,虽然让数据开发工程师们尝到了甜头。但是我们也可以从中敏锐地嗅出一丝危机的气味。

https://static001.geekbang.org/infoq/56/564db47c2231559f0f94632a382168fc.jpeg?x-oss-process=image/resize,w_416,h_234

Apache Doris 在 WeLab 实时大数据平台的应用实践

用户头像
DorisDB 2020 年 9 月 21 日

本文讲述了WeLab实时大数据平台是如何整合Apache Doris引擎,以及我们是如何思考和处理在平台搭建中遇到的一些问题的。

光大银行刘淼:基于华为云 GaussDB(DWS) 数据仓库创新实践

用户头像
华为云开发者社区 2020 年 10 月 9 日

摘要:面向未来数据平台3.0要做架构减法,平台由N->1,华为云GaussDB(DWS)未来作为数据仓库唯一平台,数据链路实现从数据湖直接到华为云GaussDB(DWS)数据仓库。

奈学:数据湖和数据仓库的区别有哪些?

用户头像
奈学教育 2020 年 6 月 28 日

储存方面:数据湖中数据为非结构化的,所有数据都保持原始形式;存储所有数据,并且仅在分析时再进行转换。数据仓库就是数据通常从事务系统中提取,在将数据加载到数据仓库之前,会对数据进行清理与转换。

3 种双集群系统方案设计模式详解

用户头像
华为云开发者社区 2020 年 9 月 1 日

摘要:本文主要是探讨OLAP关系型数据库框架的数据仓库平台如何设计双集群系统,即增强系统高可用的保障水准。

https://static001.geekbang.org/infoq/d0/d0901be30f2408b5a50e9c9ec17b2727.jpeg?x-oss-process=image/resize,w_416,h_234

作业帮基于 Apache Doris 的数仓实践

用户头像
DorisDB 2020 年 9 月 29 日

在过去半年多时间内,我们基于Apache Doris,构建了数仓实时查询系统。

https://static001.geekbang.org/infoq/b5/b5988f49fbb6c01dd16f7202ae4400bd.jpeg?x-oss-process=image/resize,w_416,h_234

美团外卖实时数仓建设实践

用户头像
DorisDB 2020 年 10 月 15 日

本文主要介绍一种通用的实时数仓构建的方法与实践。实时数仓以端到端低延迟、SQL标准化、快速响应变化、数据统一为目标。在实践中,我们总结的最佳实践是一个通用的实时生产平台 + 一个通用交互式实时分析引擎相互配合同时满足实时和准实时业务场景。

https://static001.geekbang.org/infoq/19/19486b5576c1f57e30929173c736dde7.jpeg?x-oss-process=image/resize,w_416,h_234

Apache Doris 在云真信智能决策分析平台的应用实践

用户头像
DorisDB 2020 年 10 月 9 日

云真信智能决策分析平台整体采用hadoop 、Doris On ES的架构,充分发挥三款开源组件各自的功能优势,最终实现秒级人群多维度组合分析。

诸多老牌数据仓库厂商当前,Snowflake 如何创近 12 年最大 IPO 金额

摘要:在数据仓库/分析领域,有传统厂商Oracle,Teradata,开源软件Hadoop,云厂商AWS Redshift,Google Bigquery,Snowflake成功的技术原因是什么?

数据仓库_数据仓库资料文章-InfoQ写作平台