大数据

109 人感兴趣 · 307 次引用

  • 推荐
  • 最新
https://static001.geekbang.org/infoq/96/96d0ef80fee796e039a2a2e6e4170e33.png?x-oss-process=image/resize,w_416,h_234

选择适合自己的 OLAP 引擎

用户头像
程序员小陶 2020 年 5 月 14 日

本文主要介绍了主流开源的OLAP引擎:Hive、Sparksql、Presto、Kylin、Impala、Druid、Clickhouse 等,逐一介绍了每一款开源 OLAP 引擎,包含架构、优缺点、使用场景等,希望可以给大家有所启发。

https://static001.geekbang.org/infoq/03/0372c99da452f3a0a95d6392aa2dccbc.jpeg?x-oss-process=image/resize,w_416,h_234

大厂经验(1):一套 Web 自动曝光埋点技术方案

用户头像
DeeperMan 2020 年 6 月 4 日

介绍一套Web自动曝光埋点技术方案

https://static001.geekbang.org/infoq/8e/8ebcc0c8930fd5df384829cbd8859fa4.png?x-oss-process=image/resize,w_416,h_234

扎心!天天写代码,方向真的对吗?

用户头像
Apache Flink 2020 年 5 月 8 日

“每个人的时间都是有限的,在有限的时间里选择一项值得投入的技术会变得尤为重要。”

https://static001.geekbang.org/infoq/02/02eef335637ae1e8c1900e80f9ae56bc.png?x-oss-process=image/resize,w_416,h_234

GrowingIO 微服务 SaaS 与私有部署运行实践

用户头像
GrowingIO技术专栏 2020 年 5 月 13 日

私有化和 SaaS 两种部署方式的内容架构与交互设计不同,相同的是产品底层逻辑

https://static001.geekbang.org/infoq/cb/cbf56a371db83190b7d09849414c8dfd.png?x-oss-process=image/resize,w_416,h_234

Kafka 是如何建模数据的?

用户头像
tison 2020 年 7 月 15 日

本文首先介绍 Kafka 诞生的时代背景以及诞生之初的设计目标,随后回答 Kafka 作为一个消息系统是如何建模数据的,最后讲解 Kafka 作为一个软件系统的架构,为有志于深入了解的 Kafka 的同学做一个简单的框架梳理。

https://static001.geekbang.org/infoq/95/9585533e5dbae2ff7cb8c5b7b9d56608.png?x-oss-process=image/resize,w_416,h_234

Kafka 系列第 7 篇:你必须要知道集群内部工作原理的一些事!

用户头像
z小赵 2020 年 5 月 19 日

Partition如何分布到不同的Broker上,Broker宕机Partition依然可用背后的原理介绍。

https://static001.geekbang.org/infoq/c8/c843c36cada3d88ca7012ff2b9771018.jpeg?x-oss-process=image/resize,w_416,h_234

如何用五步建设数据中台?

用户头像
博文视点Broadview 2020 年 5 月 27 日

数据中台是当下非常热门的话题,可以解决企业重复造轮子的问题。虽然数据中台在互联网企业中已经有了多年的实践,但是对于传统企业来说还是一个比较新的话题。

https://static001.geekbang.org/infoq/6b/6b2d9cf3c9f2b1819839753c0eef0e3f.png?x-oss-process=image/resize,w_416,h_234

Flink 完美搭档:数据存储层上的 Pravega

用户头像
Apache Flink 2020 年 5 月 25 日

本文将从大数据架构变迁历史,Pravega 简介,Pravega 进阶特性以及车联网使用场景这四个方面介绍 Pravega,重点介绍 DellEMC 为何要研发 Pravega,Pravega 解决了大数据处理平台的哪些痛点以及与 Flink 结合会碰撞出怎样的火花。

https://static001.geekbang.org/infoq/08/08aa906b3b6036f90d9dcdc7f10cebe8.jpeg?x-oss-process=image/resize,w_416,h_234

大数据平台架构设计探究

用户头像
vivo互联网技术 2020 年 8 月 21 日

本文介绍了一些数据平台设计思路来帮助业务减少数据开发中的痛点和难点。

https://static001.geekbang.org/infoq/41/4123658ba0c32d9a838d667d68381172.jpeg?x-oss-process=image/resize,w_416,h_234

面试官竟然一直和我聊线程的启动和终止

用户头像
Simon郎 2020 年 5 月 11 日

在运行线程之前首先要构造一个线程对象,java.Lang.Thread中为我们提供了一个用于创建线程时的初始化方法。主要对线程中的属性进行初始化

https://static001.geekbang.org/infoq/c4/c4b61a3f6b6a750121e6fdd46412e600.png?x-oss-process=image/resize,w_416,h_234

数仓系列 | Flink 窗口的应用与实现

用户头像
Apache Flink 2020 年 6 月 10 日

简介: 本文根据 Apache Flink 系列直播整理而成,由 Apache Flink Contributor、OPPO 大数据平台研发负责人张俊老师分享。主要内容如下: 1. 整体思路与学习路径 2. 应用场景与编程模型 3. 工作流程与实现机制

https://static001.geekbang.org/infoq/a4/a4469e06e74c3d1b3bd3a96c81423a61.png?x-oss-process=image/resize,w_416,h_234

Kafka 系列第 6 篇:消息是如何在服务端存储与读取的,你真的知道吗?

用户头像
z小赵 2020 年 5 月 13 日

消息存储也就那点事儿,你确定不需要了解一下吗?

https://static001.geekbang.org/infoq/11/11e3ee4b61cee502f672ff00c588f312.jpeg?x-oss-process=image/resize,w_416,h_234

一周信创舆情观察 (6.1~6.7)

用户头像
统小信uos 2020 年 6 月 10 日

新基建政策加持,大数据、网络安全发展步入快车道。

https://static001.geekbang.org/infoq/74/742e9eec39a7aa43cdf6de230d13795e.png?x-oss-process=image/resize,w_416,h_234

TensorFlow On Flink 原理解析

用户头像
Apache Flink 2020 年 5 月 12 日

简介: 本文将分享如何使用一套引擎搞定机器学习全流程的解决方案。先介绍一下典型的机器学习工作流程。如图所示,整个流程包含特征工程、模型训练、离线或者是在线预测等环节。

https://static001.geekbang.org/infoq/47/47aeaca21169949f208b4b5e72dff018.png?x-oss-process=image/resize,w_416,h_234

嫌 OSS 查询太慢?看我们如何将速度提升 10 倍!

用户头像
苏锐 2020 年 5 月 12 日

本文详细对比了用来构建数据湖方案的 JuiceFS 和 OSS 的性能。JuiceFS 为 OSS 提速,Spark 查询提升 11 倍,写入提升 8 倍

https://static001.geekbang.org/infoq/11/11e3ee4b61cee502f672ff00c588f312.jpeg?x-oss-process=image/resize,w_416,h_234

一周信创舆情观察(6.22~6.28)

用户头像
统小信uos 2020 年 7 月 1 日

数据安全监管趋严,网安市场有望延续高增长;软件行业回暖,下游客户IT投入加大。

https://static001.geekbang.org/infoq/b9/b9b0123455327914e72368e30a18a441.png?x-oss-process=image/resize,w_416,h_234

Kafka 系列第 5 篇:一文读懂消费者背后的那点"猫腻"

用户头像
z小赵 2020 年 5 月 8 日

图文并茂的方式来扒开Kafka消费端背后发生的那点猫腻。

Apache Beam 大数据处理一站式分析

用户头像
李孟 2020 年 4 月 29 日

大数据处理其实经常被很多人低估,缺乏正确的处理体系,如果没有高质量的数据处理流程,人工智能将只有人工而没有智能。而Apache Beam恰恰可以降低数据处理的难度,它是一个概念产品,所有使用者都可以根据它的概念继续拓展。

https://static001.geekbang.org/infoq/c5/c5d5e1d07a6f977d1536ad117037cba4.png?x-oss-process=image/resize,w_416,h_234

实时计算的业务劣势、思维误区和改进之道

用户头像
KAMI 2020 年 8 月 4 日

实时计算的技术优势,反倒成为其业务劣势?为什么?如何破?本文不讨论技术细节,对数据业务感兴趣同学都建议一读。

https://static001.geekbang.org/infoq/e3/e3634a2979d547db3c9a961af33c2b87.png?x-oss-process=image/resize,w_416,h_234

Flink on Zeppelin (1)入门篇

用户头像
章剑锋_Jeff 2020 年 6 月 15 日

​  一直有人在Zeppelin社区问能否在Zeppelin里使用Flink。现在终于有了进展了,从Zeppelin 0.9开始将正式支持Flink 1.10。Flink是一个批流统一的计算引擎,本文将从第一个wordcount的例子为起点来讲述如何在Zeppelin中使用Flink。

https://static001.geekbang.org/infoq/f9/f9c8f332de34ac7fa93efb701317ea22.png?x-oss-process=image/resize,w_416,h_234

Flink 与 Hive 的磨合期

用户头像
Apache Flink 2020 年 5 月 20 日

有不少读者反馈,参考上篇文章《Hive 终于等来了 Flink》部署 Flink 并集成 Hive 时,出现一些 bug 以及兼容性等问题。虽已等来,却未可用。所以笔者增加了这一篇文章,作为姊妹篇。

https://static001.geekbang.org/infoq/55/55f075b43ca386167387fd058942e2b8.png?x-oss-process=image/resize,w_416,h_234

硬核测试:Pulsar 与 Kafka 在金融场景下的性能分析

用户头像
Apache Pulsar 2020 年 10 月 4 日

Apache Pulsar 是下一代分布式消息流平台,采用计算存储分层架构,具备多租户、高一致、高性能、百万 topic、数据平滑迁移等诸多优势。越来越多的企业正在使用 Pulsar 或者尝试将 Pulsar 应用到生产环境中。

https://static001.geekbang.org/infoq/f2/f27d5825744fa42518973898bb355c6b.png?x-oss-process=image/resize,w_416,h_234

GrowingIO 大数据多维分析自动化测试实践

用户头像
GrowingIO技术专栏 2020 年 5 月 29 日

通过使用 parewise 对事件分析用例进行优化

https://static001.geekbang.org/infoq/92/92cc0c80fb7de5936f4e663001747353.jpeg?x-oss-process=image/resize,w_416,h_234

Flink 1.10 Container 环境实战

用户头像
Apache Flink 2020 年 6 月 10 日

简介: 本文第一部分将简明扼要地介绍容器管理系统的演变;第二部分是 Flink on K8S 简介,包括集群的部署模式调度原理等等;第三部分是我们这一年以来关于 Flink on K8S 的实战经验分享,

https://static001.geekbang.org/infoq/d4/d45f3abca311e9b6d0255ea5b78bf70d.png?x-oss-process=image/resize,w_416,h_234

如何从 0 到 1 参与 Flink 社区?

用户头像
Apache Flink 2020 年 6 月 10 日

简介: 本文首先介绍为何要参与开源社区以及在参与开源社区的过程中需要注意什么,然后重点介绍如何参与 Flink 社区以及在社区里面提交 PR 的整个流程。

https://static001.geekbang.org/infoq/26/260fddbb23bd752f08e5f01f82f59ebb.png?x-oss-process=image/resize,w_416,h_234

大数据技术发展 (二):Hadoop 技术生态圈的发展

用户头像
Jeffy 2020 年 8 月 19 日

Hadoop 是大数据领域中最重要的一门技术,我们很多人知道它是发源于 google 的"三驾马车",实际上真的是这样的吗?这篇文章一探 Hadoop 技术的起源。

大数据_大数据资料文章-InfoQ写作平台