写点什么

大数据处理

4 人感兴趣 · 53 次引用

  • 最新
  • 推荐

大数据 - 数据处理分类篇

用户头像
进击的梦清4 月 23 日

大数据是这个时代最热的话题,大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

https://static001.geekbang.org/infoq/bd/bdd2e69ab378ef5883a180b278d43842.png?x-oss-process=image/resize,w_416,h_234

与 Hadoop 对比,我是如何看待 Spark 技术?

用户头像
会飞的鱼3 月 2 日

首先看一下Hadoop解决了什么问题,Hadoop就是解决了大数据(大到一台计算机无法进行存储,一台计算机无法在要求的时间内进行处理)的可靠存储和处理。

https://static001.geekbang.org/infoq/98/98baadab285da83888173758f3d09989.png?x-oss-process=image/resize,w_416,h_234

ETL 工具—Taskctl 如何搭建配置作业类型的管理

用户头像
会飞的鱼3 月 2 日

在TASKCTL中,如果我们自定义增加一种全新的作业类型。

https://static001.geekbang.org/infoq/7b/7bed29c1bb53918ae93883199fec26ee.png?x-oss-process=image/resize,w_416,h_234

免费 ETL 批量调度,任务调度,作业调度自动化运维工具 Taskctl Web

用户头像
会飞的鱼1 月 27 日

软件获取: 去公众号【taskctl】回复内容 “软件” 即可获得永久授权使用

https://static001.geekbang.org/infoq/4a/4aeb4c729816114de5715b04cd1a3970.png?x-oss-process=image/resize,w_416,h_234

在数据分析、挖掘方面,有哪些 ETL 工具值得推荐?

用户头像
会飞的鱼1 月 15 日

ETL是数据仓库中的非常重要的一环,是承前启后的必要的一步。ETL负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础。

https://static001.geekbang.org/infoq/b6/b6cd6f023e6ddd06a396508f3221dfbf.png?x-oss-process=image/resize,w_416,h_234

大数据 ETL 批量调度,这几款工具都需要去掌握了解

用户头像
会飞的鱼2020 年 12 月 30 日

ETL是数据仓库中的非常重要的一环,是承前启后的必要的一步。ETL负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础。

https://static001.geekbang.org/infoq/79/799f879618f5fab6b51f4589d595ce4e.png?x-oss-process=image/resize,w_416,h_234

10 万级 ETL 批量作业调度工具 Taskctl-Web 应用版 0 元授权永久使用

用户头像
会飞的鱼2020 年 12 月 24 日

taskctl是一款10万级批量调度自动化技术专业产品;产品体系完整、功能全面、使用简单、操作流畅,超前的设计使产品在业界独树一帜,它不仅有完整的调度核心、灵活的扩展,同时具备完整的应用体系

时序数据库 DolphinDB 和 TimescaleDB 性能对比测试报告

用户头像
DolphinDB2020 年 12 月 15 日

DolphinDB 是以 C++ 编写的一款分析型的高性能分布式时序数据库,使用高吞吐低延迟的列式内存引擎,集成了功能强大的编程语言和高容量高速度的流数据分析系统,可在数据库中进行复杂的编程和运算,显著减少数据迁移所耗费的时间。

https://static001.geekbang.org/infoq/8b/8b9af8ecc8d3278eed253b0520e960ce.png?x-oss-process=image/resize,w_416,h_234

随笔文,关于”中台“ 的一些“小偏论”

用户头像
松子(李博源)2020 年 9 月 11 日

这是一个随笔,也是回答几个“中台” 直播的几个问题与仅代表个人的观点

https://static001.geekbang.org/infoq/3b/3b9f407be74da6566b965d03d73d85f4.png?x-oss-process=image/resize,w_416,h_234

初识 Druid——实时 OLAP 系统

用户头像
justskinny2020 年 8 月 29 日

这篇文章介绍 Druid ——一个实时分析 OLAP 系统,内容主要分三块:Druid 的简介、主要特点还有适用场景。分享的目标是让读者了解 Druid 是什么,以后在做数据分析技术选型的时候可以快速匹配。如果有写得不对或者不清楚的地方,欢迎留言讨论。

https://static001.geekbang.org/infoq/c4/c4034e1236b91f9c83daf84a45863228.png?x-oss-process=image/resize,w_416,h_234

大数据技术发展 (一):大数据技术的起源

用户头像
抖码算法2020 年 8 月 18 日

我们知道大数据技术是时下应用非常广泛的技术,也是未来的趋势,但是你知道大数据技术的起源吗?本文带你一探大数据技术的起源

华为云 GaussDB(DWS)内存知识点, 你知道吗?

用户头像
华为云开发者社区2020 年 8 月 3 日

在日常数据库的使用中,难免会遇到一些内存问题。此次博文主要向大家分享一些华为云数仓GaussDB(DWS)内存的基本框架以及基本视图的使用,以便遇到内存问题后可以有一个基本的判断。

https://static001.geekbang.org/infoq/18/1866b5e6c3d00326ca907c5f50a7e269.png?x-oss-process=image/resize,w_416,h_234

数仓大法好!跨境电商 Shopee 的实时数仓之路

用户头像
Apache Flink2020 年 6 月 18 日

简介: 本文讲述 Flink 在 Shopee 新加坡数据组(Shopee Singapore Data Team)的应用实践,主要内容包括:实时数仓建设背景、Flink 在实时数据数仓建设中结合 Druid、Hive 的应用场景、实时任务监控

https://static001.geekbang.org/infoq/cf/cf336382e6a67f45a3e6bb7118aec0de.png?x-oss-process=image/resize,w_416,h_234

Flink 在快手实时多维分析场景的应用

用户头像
Apache Flink2020 年 6 月 18 日

简介: 作为短视频分享跟直播的平台,快手有诸多业务场景应用了 Flink,包括短视频、直播的质量监控、用户增长分析、实时数据处理、直播 CDN 调度等。此次主要介绍在快手使用 Flink 在实时多维分析场景的应用与优化。

https://static001.geekbang.org/infoq/9a/9a0b8d66fd661f394946b152f74d2c1e.png?x-oss-process=image/resize,w_416,h_234

实时即未来?一个小微企业心中的流计算

用户头像
Apache Flink2020 年 6 月 18 日

简介: 本文由墨芷技术团队唐铎老师分享,主要讲述其技术团队内部引入流计算的整个过程,包括最初的决策、期间的取舍以及最终落地,一路走来他们的思考、感悟以及经验分享。 

https://static001.geekbang.org/infoq/c8/c8454a9664df2c1418903aef35ea5c79.png?x-oss-process=image/resize,w_416,h_234

Flink 作业问题分析和调优实践

用户头像
Apache Flink2020 年 6 月 18 日

简介: 本文主要分享 Flink 的 CheckPoint 机制、反压机制及 Flink 的内存模型。对这3部分内容的熟悉是调优的前提,文章主要从以下几个部分分享:原理剖析、性能定位、经典场景调优、内存调优。

https://static001.geekbang.org/infoq/6b/6b0c307d56ecdc4176f25ddf7523b06e.jpeg?x-oss-process=image/resize,w_416,h_234

免费下载 | 阿里云实时计算整体解决方案白皮书重磅发布!

用户头像
Apache Flink2020 年 6 月 18 日

简介: 为更好的助力各行各业实现企业数字化转型,为企业的创新、重构核心竞争力提供坚实支撑;阿里云实时计算重磅推出金融、物流、IoT、广告等行业整体解决方案白皮书。

https://static001.geekbang.org/infoq/51/51818cac96dffad613d20e3ed3e7b617.jpeg?x-oss-process=image/resize,w_416,h_234

大数据的下一站是什么?服务 / 分析一体化(HSAP)

用户头像
Apache Flink2020 年 6 月 14 日

简介: 大数据的下一站是什么?服务/分析一体化(HSAP)

https://static001.geekbang.org/infoq/50/500922773d2c59ee6ffc03c384b0731b.jpeg?x-oss-process=image/resize,w_416,h_234

直播 | 即将发版的 Flink 1.11 有哪些重大变更?

用户头像
Apache Flink2020 年 6 月 14 日

简介: 6月14日,大数据+AI Meetup 在线直播!Apache Flink Committer,阿里巴巴技术专家李劲松(之信)将现场分享《Flink 1.11 Table&SQL 深度解读》,还有快手春晚项目的独家实践、网易云音乐 Flink + Kafka 的生产落地等。

https://static001.geekbang.org/infoq/5b/5b7036620aed580a2b7ddbd8e153480d.jpeg?x-oss-process=image/resize,w_416,h_234

周末直播|Flink、Hologres、AI 等热门话题全都安排!

用户头像
Apache Flink2020 年 6 月 14 日

简介: 6月14日,计算平台事业部与阿里云开发者社区联合举办的首期大数据+AI Meetup即将重磅开启,来自阿里、Databricks、快手、网易云音乐的国内外多位技术专家齐聚一堂,与你探讨大数据及 AI 领域的热门话题!

https://static001.geekbang.org/infoq/d4/d45f3abca311e9b6d0255ea5b78bf70d.png?x-oss-process=image/resize,w_416,h_234

如何从 0 到 1 参与 Flink 社区?

用户头像
Apache Flink2020 年 6 月 10 日

简介: 本文首先介绍为何要参与开源社区以及在参与开源社区的过程中需要注意什么,然后重点介绍如何参与 Flink 社区以及在社区里面提交 PR 的整个流程。

https://static001.geekbang.org/infoq/92/92cc0c80fb7de5936f4e663001747353.jpeg?x-oss-process=image/resize,w_416,h_234

Flink 1.10 Container 环境实战

用户头像
Apache Flink2020 年 6 月 10 日

简介: 本文第一部分将简明扼要地介绍容器管理系统的演变;第二部分是 Flink on K8S 简介,包括集群的部署模式调度原理等等;第三部分是我们这一年以来关于 Flink on K8S 的实战经验分享,

https://static001.geekbang.org/infoq/c4/c4b61a3f6b6a750121e6fdd46412e600.png?x-oss-process=image/resize,w_416,h_234

数仓系列 | Flink 窗口的应用与实现

用户头像
Apache Flink2020 年 6 月 10 日

简介: 本文根据 Apache Flink 系列直播整理而成,由 Apache Flink Contributor、OPPO 大数据平台研发负责人张俊老师分享。主要内容如下: 1. 整体思路与学习路径 2. 应用场景与编程模型 3. 工作流程与实现机制

https://static001.geekbang.org/infoq/05/05382cc98f8f853cf564ab4b068212a7.png?x-oss-process=image/resize,w_416,h_234

这场大数据 +AI Meetup,一次性安排了大数据当下热门话题

用户头像
Apache Flink2020 年 6 月 3 日

简介: 6月14日,阿里巴巴计算平台事业部与阿里云开发者社区共同举办的大数据+AI Meetup 系列第一季即将重磅开启,此次 Meetup 邀请了来自阿里巴巴、Databricks、快手、网易云音乐的7位技术专家,集中解读大数据当前热门话题!

https://static001.geekbang.org/infoq/8d/8d8f13782b3a27dac973fd2014ba5c5f.jpeg?x-oss-process=image/resize,w_416,h_234

Flink Weekly | 每周社区动态更新 -20200520

用户头像
Apache Flink2020 年 6 月 3 日

简介: 本期主要内容包括:近期社区开发进展、邮件问题答疑、Flink 最新社区动态及技术文章推荐等。

https://static001.geekbang.org/infoq/3f/3f55f81f7ab937d8e690e8b5a0a6afbe.png?x-oss-process=image/resize,w_416,h_234

Flink 1.10 SQL、HiveCatalog 与事件时间整合示例

用户头像
Apache Flink2020 年 6 月 3 日

简介: Flink 1.10 与 1.9 相比又是个创新版本,在我们感兴趣的很多方面都有改进,特别是 Flink SQL。本文用根据埋点日志计算 PV、UV 的简单示例来体验 Flink 1.10 的两个重要新特性。

https://static001.geekbang.org/infoq/ab/ab76276dfe51aa0e9d1381a9a66a1ac2.png?x-oss-process=image/resize,w_416,h_234

深度解读 Flink 1.11:流批一体 Hive 数仓

用户头像
Apache Flink2020 年 6 月 1 日

简介: Flink 1.11 中流计算结合 Hive 批处理数仓,给离线数仓带来 Flink 流处理实时且 Exactly-once 的能力。另外,Flink 1.11 完善了 Flink 自身的 Filesystem connector,大大提高了 Flink 的易用性。

https://static001.geekbang.org/infoq/c7/c7525390a22e8d2c3661e9b63dcd4ffc.png?x-oss-process=image/resize,w_416,h_234

这场大数据 +AI Meetup,一次性安排了大数据当下热门话题

用户头像
Apache Flink2020 年 5 月 29 日

简介: 6月14日,阿里巴巴计算平台事业部与阿里云开发者社区共同举办的大数据+AI Meetup 系列第一季即将重磅开启,此次 Meetup 邀请了来自阿里巴巴、Databricks、快手、网易云音乐的7位技术专家,集中解读大数据当前热门话题!

大数据处理_大数据处理资料文章-InfoQ写作平台