写点什么

大数据

169 人感兴趣 · 724 次引用

  • 最新
  • 推荐

看 Kunpeng BoostKit 使能套件如何实现大数据场景倍级性能提升

​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​摘要:本次鲲鹏 BoostKit 训练营为开发者介绍如何基于鲲鹏 BoostKit 使能套件实现应用性能的加速,并重点剖析性能优化技术和关键能力。

Pandas 之:Pandas 高级教程以铁达尼号真实数据为例

用户头像
程序那些事6 月 7 日

今天我们会讲解一下Pandas的高级教程,包括读写文件、选取子集和图形表示等。

Hadoop 实战篇(1)

用户头像
进击的梦清6 月 5 日

在前面介绍过了Hadoop-离线批处理技术的整体架构,接下来便开始学习安装配置并使用 Hadoop ; 将从以下几点介绍: Linux 环境的配置与安装 Hadoop、Hadoop 的三种安装模式介绍、本地模式安装和伪集群模式安装

https://static001.geekbang.org/infoq/a3/a38ea7f0a9e4324c1afa5b527c64a7c6.png?x-oss-process=image/resize,w_416,h_234

ETL 工程师必看!超实用的任务优化与断点执行方案

用户头像
会飞的鱼6 月 4 日

随着大数据时代的快速发展,企业每天需要存储、计算、分析数以万亿的数据,同时还要确保分析的数据具备及时性、准确性和完整性。面对如此庞大的数据体系,ETL工程师(数据分析师)如何能高效、准确地进行计算并供业务方使用,就成了一个难题。

Tapdata 实时数据融合平台解决方案(五):落地

作者介绍:TJ,唐建法,Tapdata 钛铂数据 CTO,MongoDB中文社区主席,原MongoDB大中华区首席架构师,极客时间MongoDB视频课程讲师。

Tapdata 实时数据融合平台解决方案(四):技术选型

作者介绍:TJ,唐建法,Tapdata 钛铂数据 CTO,MongoDB中文社区主席,原MongoDB大中华区首席架构师,极客时间MongoDB视频课程讲师。

https://static001.geekbang.org/infoq/56/561d66aa91ccfc66b6ae5744fdc5ca3d.jpeg?x-oss-process=image/resize,w_416,h_234

个推 CTO 谈数据中台 (上):从要求、方法论到应用实践

用户头像
个推6 月 1 日

从概念定义、价值赋能、战略理论、落地实践等方面层层剖析,旨在帮助大数据、数字化领域以及相关行业从业者梳理出一个聚焦当下、增能未来的中台建设新路径

Logstash- 数据流引擎

用户头像
进击的梦清5 月 31 日

Logstash是具有实时流水线功能的开源数据收集引擎。Logstash可以动态统一来自不同来源的数据,并将数据标准化到您选择的目标位置。清除所有数据并使其民主化,以用于各种高级下游分析和可视化用例。

大数据采集和常见问题

用户头像
数据社5 月 31 日

大家好,我是一哥,今天给大家讲解一下大数据面试中对于数据采集部分的一些问题。

不愧是 Alibaba 技术官,Kafka 的精髓全写这本“限量笔记”里,服了

用户头像
云流5 月 31 日

分布式,是程序员必备技能之一,在面试过程中属于必备类的,在工作中更是会经常用到。而Kafka是一个分布式的基于发布订阅的消息队列,目前它的魅力是无穷的,对于Kafka的奥秘,还需要我们细细去探寻。

日志收集组件—Flume、Logstash、Filebeat 对比

用户头像
数据社5 月 28 日

数据的价值在于把数据变成行动。这里一个非常重要的过程是数据分析。提到数据分析,大部分人首先想到的都是Hadoop、流计算、机器学习等数据加工的方式。从整个过程来看,数据分析其实包含了4个过程:采集,存储,计算,展示。大数据的数据采集工作是大数据技

https://static001.geekbang.org/infoq/50/50e1909bdb64b991205e6a65eedbed15.jpeg?x-oss-process=image/resize,w_416,h_234

MPP 大规模并行处理架构详解

面试官:说下你知道的MPP架构的计算引擎?

https://static001.geekbang.org/infoq/c4/c49f4af91bb8981d2e864eaca6a36e90.jpeg?x-oss-process=image/resize,w_416,h_234

Flume 自定义拦截器

Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。Flume有各种自带的拦截器,比

https://static001.geekbang.org/infoq/0f/0fc40fbe0300cecec2e4c4b0824edf19.png?x-oss-process=image/resize,w_416,h_234

如何入门数据分析?

用户头像
数据社5 月 26 日

如今,大多数公司都意识到数据驱动的商业策略的价值,因此需要有数据分析才能的人来洞察不断收集的信息。随着我们继续将现实世界数字化,对分析师的需求只会增加。 可以了解之前讲解的《数据分析为什么火了》。

https://static001.geekbang.org/infoq/f7/f7bc64c9786b87e05bcd4e6a5e2c3407.png?x-oss-process=image/resize,w_416,h_234

Hive 对分区分桶表的操作

在大数据中,最常用的一种思想就是分治,我们可以把大的文件切割划分成一个个的小的文件,这样每次操作一个小的文件就会很容易了,同样的道理,在hive当中也是支持这种思想的,就是我们可以把大的数据,按照每天,或者每小时进行切分成一个个的小的文件,这样

https://static001.geekbang.org/infoq/85/857c67577db45453b80f8ff6ca06c032.jpeg?x-oss-process=image/resize,w_416,h_234

Spark 知识点简单总结

Hadoop底层使用MapReduce计算架构,只有map和reduce两种操作,表达能力比较欠缺,而且在MR过程中会重复的读写hdfs,造成大量的磁盘io读写操作,所以适合高时延环境下批处理计算的应用;

https://static001.geekbang.org/infoq/8e/8e119eb530a5d944982e6d7e44f00f0a.jpeg?x-oss-process=image/resize,w_416,h_234

Flink 的 Time 与 Window

在Flink的流式处理中,会涉及到时间的不同概念,如下图所示:

https://static001.geekbang.org/infoq/3c/3c41c85ad3c3739cb76513b2b48e4dce.webp?x-oss-process=image/resize,w_416,h_234

HBase 常见问题

用户头像
数据社5 月 23 日

HBase在大数据技术领域中占据了重要的作用,整理了一些面试问题,大家收藏,文末可以获取PPT。

https://static001.geekbang.org/infoq/98/98a572b4e03be9eeb015a554b16d6177.jpeg?x-oss-process=image/resize,w_416,h_234

如何提升 Hadoop 访问对象存储 US3 的效率?我们做了这些技术实践

用户头像
UCloud技术5 月 22 日

​在信息爆炸的大数据时代,如何以更低成本来解决海量数据的存储问题,已成为企业大数据业务中的重要一环。UCloud自研的新一代对象存储服务US3,在过去一段时间,针对大数据业务场景推出了计算存储分离和大数据备份解决方案。

数据仓库如何确定主题域?

用户头像
数据社5 月 22 日

前几天跟一个朋友聊了一些数据中台建设的内容,针对数据仓库中主题域如何划分这个话题聊了很多。其实数据仓库建设的理论大家已经都知道了不少,也看过不少书,那么在实际建设数据仓库中,我们还是会遇到各种问题。今天我们就一起聊聊主题域如何划分?

https://static001.geekbang.org/infoq/81/81fa606a95b564035e37b5ebb88a45aa.jpeg?x-oss-process=image/resize,w_416,h_234

This BigData,Hadoop 组成及生态

用户头像
Simon郎5 月 21 日

随着科技的发展,我们在网上留下的数据越来越多,大到网上购物、商品交易,小到浏览网页、微信聊天、手机自动记录日常行程等,可以说,在如今的生活里,只要你还在,你就会每时每刻产生数据,但是这些数据能称为大数据么?不,这些还不能称为大数据。那么大数

https://static001.geekbang.org/infoq/7a/7a98a0c63aa207180c7dbe970bd4c8fd.jpeg?x-oss-process=image/resize,w_416,h_234

Flink 的广播变量

Flink支持广播变量,就是将数据广播到具体的taskmanager上,数据存储在内存中,这样可以减缓大量的shuffle操作;比如在数据join阶段,不可避免的就是大量的shuffle操作,我们可以把其中一个dataSet广播出去,一直加载到taskManager的内存中,可以直接在内存中

https://static001.geekbang.org/infoq/f7/f7bc64c9786b87e05bcd4e6a5e2c3407.png?x-oss-process=image/resize,w_416,h_234

hive 交互的几种方式

​ 以上命令操作完成之后,一定要确认mysql里面出来一个数据库hive

毫秒级的竞技 PK | 电信行业需要的 5G 速度

用户头像
VoltDB5 月 19 日

VoltDB是一种高速决策引擎,经证实可为实时应用程序提供助力,这些实时应用程序必须在几毫秒内做出反应,用以增加营收或防止营收降低。

https://static001.geekbang.org/infoq/55/553d6f6c744a8902dc434af1fb57f3ee.jpeg?x-oss-process=image/resize,w_416,h_234

SparkStreaming 知识点总结

Spark Streaming中,会有一个接收器组件Receiver,作为一个长期运行的task跑在一个Executor上。Receiver接收外部的数据流形成input DStream

https://static001.geekbang.org/infoq/ed/ed718ea7e07d3207ffc9bba2031796b2.png?x-oss-process=image/resize,w_416,h_234

kafka 基本概念

用户头像
杨四正5 月 19 日

Apache Kafka 是一种分布式消息系统,由Scala语言编写而成。

大数据_大数据资料文章-InfoQ写作平台