写点什么

大数据处理

7 人感兴趣 · 61 次引用

  • 最新
  • 推荐
https://static001.geekbang.org/infoq/2f/2fa692dc8209ddb535babd732407fb1a.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

炎凰数据完成超亿元 A1 和 A1+ 轮融资,推出异构数据即时分析平台

用户头像
晨山资本
2022-11-23

「炎凰数据」专注异构数据处理,致力于打造新一代异构数据即时分析平台。

https://static001.geekbang.org/infoq/75/757fa55daba42b2046d2a70fe27ca42e.jpeg?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

openLooKeng v1.4.1 上线,OmniData Connector 来了

用户头像
openLooKeng
2021-11-15

前不久,在Hadoop、openLooKeng联合发起的Apache Hadoop Meetup 2021上,社区 PMC 主席 Ken Zhang 分享了主题:openLooKeng and the technical trend of big data(点此回顾),其中OmniRuntime 受到不少朋友的关注。11月12日,openLooKeng v1.4.1正式上线。

https://static001.geekbang.org/infoq/51/51265c9a2d4851f47d74dea2441fe67e.jpeg?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

吐血整理:常用的大数据采集工具,你不可不知

用户头像
小术晓术
2021-11-10

大数据的来源多种多样,在大数据时代背景下,如何从大数据中采集出有用的信息是大数据发展的最关键因素。大数据采集是大数据产业的基石,大数据采集阶段的工作是大数据的核心技术之一。为了高效采集大数据,依据采集环境及数据类型选择适当的大数据采集方法及

https://static001.geekbang.org/infoq/12/12e8eecf918370ef2dc7b48f2c3e0de5.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

浅析 openLooKeng 安全认证机制

用户头像
openLooKeng
2021-11-08

通过openLooKeng的官网我们可以知道其支持对外部用户的认证的,主要方式有Kerberos和Password(LDAP)认证,本文主要讲解其认证原理。

https://static001.geekbang.org/infoq/d8/d8cec918c770c586f4a566765aec71e5.jpeg?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

超简单教程!自动部署 openLooKeng

用户头像
openLooKeng
2021-11-08

​除了手动部署openLooKeng服务器外,还可以按照以下指导更快、更容易地完成部署。这个脚本对大多数Linux操作系统都很友好。但是,对于Ubuntu,需要手动安装以下依赖项。

基于 Hive Connector 的 openLooKeng Connector 创建复用机制剖析

用户头像
openLooKeng
2021-11-08

openLooKeng是一款开源的高效数据虚拟化分析引擎。本期,来自光大银行的小伙伴将为我们分享一篇博客,[基于Hive Connector的openLooKeng Connector创建复用机制剖析],非常感谢这位小伙伴的投稿。

https://static001.geekbang.org/infoq/d5/d53ae8a67d048dbb92823e9fd3983ad7.jpeg?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

超详细攻略!手把手教你如何在 windows 下搭建 openLooKeng 开发环境

用户头像
openLooKeng
2021-11-08

当我们在进行openLooKeng的项目任务时,很多情况下需要在openLooKeng下进行开发调试,但只有windows 电脑的我们该怎么做?本期,小助手将介绍在Windows下搭建openLooKeng开发环境的方法,希望对朋友们有帮助。如果您有任何想要交流的,欢迎在社区内提Issue;

大数据 - 数据处理分类篇

用户头像
进击的梦清
2021-04-23

大数据是这个时代最热的话题,大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

https://static001.geekbang.org/infoq/bd/bdd2e69ab378ef5883a180b278d43842.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

与 Hadoop 对比,我是如何看待 Spark 技术?

用户头像
TASKCTL
2021-03-02

首先看一下Hadoop解决了什么问题,Hadoop就是解决了大数据(大到一台计算机无法进行存储,一台计算机无法在要求的时间内进行处理)的可靠存储和处理。

https://static001.geekbang.org/infoq/98/98baadab285da83888173758f3d09989.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

ETL 工具—Taskctl 如何搭建配置作业类型的管理

用户头像
TASKCTL
2021-03-02

在TASKCTL中,如果我们自定义增加一种全新的作业类型。

https://static001.geekbang.org/infoq/7b/7bed29c1bb53918ae93883199fec26ee.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

免费 ETL 批量调度,任务调度,作业调度自动化运维工具 Taskctl Web

用户头像
TASKCTL
2021-01-27

软件获取: 去公众号【taskctl】回复内容 “软件” 即可获得永久授权使用

https://static001.geekbang.org/infoq/4a/4aeb4c729816114de5715b04cd1a3970.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

在数据分析、挖掘方面,有哪些 ETL 工具值得推荐?

用户头像
TASKCTL
2021-01-15

ETL是数据仓库中的非常重要的一环,是承前启后的必要的一步。ETL负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础。

https://static001.geekbang.org/infoq/b6/b6cd6f023e6ddd06a396508f3221dfbf.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

大数据 ETL 批量调度,这几款工具都需要去掌握了解

用户头像
TASKCTL
2020-12-30

ETL是数据仓库中的非常重要的一环,是承前启后的必要的一步。ETL负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础。

https://static001.geekbang.org/infoq/79/799f879618f5fab6b51f4589d595ce4e.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

10 万级 ETL 批量作业调度工具 Taskctl-Web 应用版 0 元授权永久使用

用户头像
TASKCTL
2020-12-24

taskctl是一款10万级批量调度自动化技术专业产品;产品体系完整、功能全面、使用简单、操作流畅,超前的设计使产品在业界独树一帜,它不仅有完整的调度核心、灵活的扩展,同时具备完整的应用体系

时序数据库 DolphinDB 和 TimescaleDB 性能对比测试报告

用户头像
DolphinDB
2020-12-15

DolphinDB 是以 C++ 编写的一款分析型的高性能分布式时序数据库,使用高吞吐低延迟的列式内存引擎,集成了功能强大的编程语言和高容量高速度的流数据分析系统,可在数据库中进行复杂的编程和运算,显著减少数据迁移所耗费的时间。

https://static001.geekbang.org/infoq/8b/8b9af8ecc8d3278eed253b0520e960ce.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

随笔文,关于”中台“ 的一些“小偏论”

这是一个随笔,也是回答几个“中台” 直播的几个问题与仅代表个人的观点

https://static001.geekbang.org/infoq/3b/3b9f407be74da6566b965d03d73d85f4.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

初识 Druid——实时 OLAP 系统

用户头像
justskinny
2020-08-29

这篇文章介绍 Druid ——一个实时分析 OLAP 系统,内容主要分三块:Druid 的简介、主要特点还有适用场景。分享的目标是让读者了解 Druid 是什么,以后在做数据分析技术选型的时候可以快速匹配。如果有写得不对或者不清楚的地方,欢迎留言讨论。

https://static001.geekbang.org/infoq/c4/c4034e1236b91f9c83daf84a45863228.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

大数据技术发展 (一):大数据技术的起源

用户头像
cristal
2020-08-18

我们知道大数据技术是时下应用非常广泛的技术,也是未来的趋势,但是你知道大数据技术的起源吗?本文带你一探大数据技术的起源

华为云 GaussDB(DWS)内存知识点, 你知道吗?

在日常数据库的使用中,难免会遇到一些内存问题。此次博文主要向大家分享一些华为云数仓GaussDB(DWS)内存的基本框架以及基本视图的使用,以便遇到内存问题后可以有一个基本的判断。

https://static001.geekbang.org/infoq/18/1866b5e6c3d00326ca907c5f50a7e269.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

数仓大法好!跨境电商 Shopee 的实时数仓之路

用户头像
Apache Flink
2020-06-18

简介: 本文讲述 Flink 在 Shopee 新加坡数据组(Shopee Singapore Data Team)的应用实践,主要内容包括:实时数仓建设背景、Flink 在实时数据数仓建设中结合 Druid、Hive 的应用场景、实时任务监控

https://static001.geekbang.org/infoq/cf/cf336382e6a67f45a3e6bb7118aec0de.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

Flink 在快手实时多维分析场景的应用

用户头像
Apache Flink
2020-06-18

简介: 作为短视频分享跟直播的平台,快手有诸多业务场景应用了 Flink,包括短视频、直播的质量监控、用户增长分析、实时数据处理、直播 CDN 调度等。此次主要介绍在快手使用 Flink 在实时多维分析场景的应用与优化。

https://static001.geekbang.org/infoq/9a/9a0b8d66fd661f394946b152f74d2c1e.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

实时即未来?一个小微企业心中的流计算

用户头像
Apache Flink
2020-06-18

简介: 本文由墨芷技术团队唐铎老师分享,主要讲述其技术团队内部引入流计算的整个过程,包括最初的决策、期间的取舍以及最终落地,一路走来他们的思考、感悟以及经验分享。 

https://static001.geekbang.org/infoq/c8/c8454a9664df2c1418903aef35ea5c79.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

Flink 作业问题分析和调优实践

用户头像
Apache Flink
2020-06-18

简介: 本文主要分享 Flink 的 CheckPoint 机制、反压机制及 Flink 的内存模型。对这3部分内容的熟悉是调优的前提,文章主要从以下几个部分分享:原理剖析、性能定位、经典场景调优、内存调优。

https://static001.geekbang.org/infoq/6b/6b0c307d56ecdc4176f25ddf7523b06e.jpeg?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

免费下载 | 阿里云实时计算整体解决方案白皮书重磅发布!

用户头像
Apache Flink
2020-06-18

简介: 为更好的助力各行各业实现企业数字化转型,为企业的创新、重构核心竞争力提供坚实支撑;阿里云实时计算重磅推出金融、物流、IoT、广告等行业整体解决方案白皮书。

https://static001.geekbang.org/infoq/51/51818cac96dffad613d20e3ed3e7b617.jpeg?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

大数据的下一站是什么?服务 / 分析一体化(HSAP)

用户头像
Apache Flink
2020-06-14

简介: 大数据的下一站是什么?服务/分析一体化(HSAP)

https://static001.geekbang.org/infoq/50/500922773d2c59ee6ffc03c384b0731b.jpeg?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

直播 | 即将发版的 Flink 1.11 有哪些重大变更?

用户头像
Apache Flink
2020-06-14

简介: 6月14日,大数据+AI Meetup 在线直播!Apache Flink Committer,阿里巴巴技术专家李劲松(之信)将现场分享《Flink 1.11 Table&SQL 深度解读》,还有快手春晚项目的独家实践、网易云音乐 Flink + Kafka 的生产落地等。

https://static001.geekbang.org/infoq/5b/5b7036620aed580a2b7ddbd8e153480d.jpeg?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

周末直播|Flink、Hologres、AI 等热门话题全都安排!

用户头像
Apache Flink
2020-06-14

简介: 6月14日,计算平台事业部与阿里云开发者社区联合举办的首期大数据+AI Meetup即将重磅开启,来自阿里、Databricks、快手、网易云音乐的国内外多位技术专家齐聚一堂,与你探讨大数据及 AI 领域的热门话题!

大数据处理_大数据处理技术文章_InfoQ写作社区