写点什么

大数据

137 人感兴趣 · 445 次引用

  • 最新
  • 推荐
https://static001.geekbang.org/infoq/71/71dae3826e559ebc0b9688c2bec3efbf.jpeg?x-oss-process=image/resize,w_416,h_234

Hadoop 专栏 - MapReduce 入门

用户头像
小马哥18 分钟前

小马哥大数据基础专栏: 最简单的解释MapReduce思想, 最简单的MapReduce入门案例.

https://static001.geekbang.org/infoq/b3/b32ede53196caf7e2a8fa3fd92807138.jpeg?x-oss-process=image/resize,w_416,h_234

Hadoop 的 MapReduce 到底有什么问题?

用户头像
hanke6 小时前

作为Hadoop里重要的分布式计算组件MapReduce到底存在什么样的问题,大家纷纷都转投其他技术栈?我们来一起探个究竟。本文会先详细解析一下整个MapReduce的过程,编程方式,然后再去分析一下存在的问题和其中可以借鉴的点。

https://static001.geekbang.org/infoq/b0/b06b95f2260f9b640efab5a5236afd38.jpeg?x-oss-process=image/resize,w_416,h_234

数据库表数据量大读写缓慢如何优化(2)「查询分离」

上一篇聊到过,冷热分离解决方案的性价比高,但它并不是一个最优的方案,仍然存在诸多不足,比如:查询冷数据慢、业务无法再修改冷数据、冷数据多到一定程度系统依旧扛不住,我们如果想把这些问题一一解决掉,可以用另外一种解决方案——查询分离。(注意:查

https://static001.geekbang.org/infoq/dc/dc770c3fce6bb3b0fdea3f416d752faf.jpeg?x-oss-process=image/resize,w_416,h_234

HBase 底层原理详解(深度好文,建议收藏)

HBase 是一个分布式的、面向列的开源数据库。建立在 HDFS 之上。Hbase的名字的来源是 Hadoop database,即 Hadoop 数据库。HBase 的计算和存储能力取决于 Hadoop 集群。

https://static001.geekbang.org/infoq/c9/c97f793848248634546c7a9d6c867fad.jpeg?x-oss-process=image/resize,w_416,h_234

工信部:推动区块链等与工业互联网的融合技术研究

工业和信息化部近日印发《工业互联网创新发展行动计划(2021-2023年)》,提出到2023年,我国工业互联网新型基础设施建设量质并进

https://static001.geekbang.org/infoq/1a/1adddf040afbb60369800d9ea2dc496f.jpeg?x-oss-process=image/resize,w_416,h_234

一文带你快速入门 Canal,看这篇就够了!

用户头像
大数据老哥1 月 12 日

我们在做实时数仓时数据往往都是保存到数据库中例如MySQL,当有一条数据新增或修改需要马上将数据同步到kafka中或其他的数据库中,这时候我们需要借助阿里开源出来的Canal,来实现我们功能。

https://static001.geekbang.org/infoq/a8/a8e648f83a451247db54d19f3b127e16.jpeg?x-oss-process=image/resize,w_416,h_234

九个最容易出错的 Hive sql 详解及使用注意事项

阅读本文小建议:本文适合细嚼慢咽,不要一目十行,不然会错过很多有价值的细节。

https://static001.geekbang.org/infoq/80/80ff0c595a1bf7301697eaf5890f86ac.jpeg?x-oss-process=image/resize,w_416,h_234

Alluxio Day 2021 线上直播

用户头像
小小的一朵云1 月 12 日

洞见数据与计算的云原生生态

https://static001.geekbang.org/infoq/e0/e0f7659baa8b7d7f8050b11b15e57dae.png?x-oss-process=image/resize,w_416,h_234

致 ClickHouse 用户的一封信

用户头像
DorisDB1 月 12 日

今天,请给国产新一代MPP数据库一个机会,让鼎石数据库助力您的业务飞速发展!

https://static001.geekbang.org/infoq/fe/fe1a211943e85c329e7ab34fbc12a960.png?x-oss-process=image/resize,w_416,h_234

数仓建设中最常用模型 --Kimball 维度建模详解

数仓建模首推书籍《数据仓库工具箱:维度建模权威指南》,本篇文章参考此书而作。

https://static001.geekbang.org/infoq/16/1625de768c185aca4e60ba5927afc43b.jpeg?x-oss-process=image/resize,w_416,h_234

Hadoop 安装配置

用户头像
小马哥1 月 10 日

大数据专栏系列文章: 本章介绍 hadoop 的环境安装

https://static001.geekbang.org/infoq/24/24849e3fcbb673eb1494f3a90b96da10.jpeg?x-oss-process=image/resize,w_416,h_234

大数据知识专栏 1-Hadoop 环境安装

用户头像
小马哥1 月 9 日

大数据专栏系列文章: 本章介绍hadoop的环境安装

https://static001.geekbang.org/infoq/41/41462cec963f5e02dd5dcfdb060e1b05.jpeg?x-oss-process=image/resize,w_416,h_234

推荐系统解构

用户头像
DataFunTalk1 月 9 日

由于移动互联网时代用户每时每刻都会产生海量信息,伴随着大数据技术的快速发展,使得企业能够迎合用户的痛点,分析用户喜好,进行商品推荐。

https://static001.geekbang.org/infoq/34/34832e20a1d04071578cd97ead9010d6.jpeg?x-oss-process=image/resize,w_416,h_234

Flink 自定义 Avro 序列化 (Source/Sink) 到 kafka 中

用户头像
大数据老哥1 月 9 日

最近一直在研究如果提高kafka中读取效率,之前一直使用字符串的方式将数据写入到kafka中。当数据将特别大的时候发现效率不是很好,偶然之间接触到了Avro序列化,发现kafka也是支持Avro的方式于是就有了本篇文章。

Spark 扫描 HDFS lzo/gz/orc 异常压缩文件

用户头像
笨小康1 月 8 日

考虑到 Hadoop 3.0.0 的新特性 EC 码,我们将 Hadoop 2.6.0 集群的数据冷备到 Hadoop 3.0.0,来缓解 HDFS 存储的压力,但在冷备操作进行了一段时间后,用户反馈数据读取存在异常,由于文件暂时不可恢复,需要把异常文件给排查出来。

“持证”就能上岗 京东绿色内推招聘通道开启

京东智联云培训认证,关注开发者技术学习需求,提供权威培训认证。对于开发者个人和企业,京东智联云培训与认证都能提供极大的价值。

Yarn RM 写 ZNode 超数据量限制 bug 修复

用户头像
笨小康1 月 8 日

Yarn RM写ZK ZNode的数据量超过限制,导致 RM 服务进入Standby状态,用户无法正常提交任务,整个集群hang住,后续排查发现是异常任务写ZNode数据量太大超过限制,为避免类似问题再次出现,对RM写ZNode逻辑进行了优化,规避异常任务对整个集群造成的雪崩效应。

https://static001.geekbang.org/infoq/e1/e1e1713fb52c1ad7990123b8403ea677.jpeg?x-oss-process=image/resize,w_416,h_234

Hive 的调优你都知道那些?

用户头像
大数据老哥1 月 8 日

我们在工作中还是在学习中有都会遇到我们写的HQL语句执行效率不高,那我们该怎么提高查询效率那,这篇文章就带你从不同维度讲解,让你的HQL瞬间提高一个档次。记得收藏

https://static001.geekbang.org/infoq/75/758314d879173fa444826119c942cc9f.jpeg?x-oss-process=image/resize,w_416,h_234

边缘计算安全技术研究

我们参考了《边缘计算安全技术综述》,分析总结了边缘计算参考模型中的边缘设备层、通信层和边缘计算层容易遭到的安全攻击,综述了边缘计算中密码安全技术的研究成果,最后给出了边缘计算安全技术研究的几个建议。

Spark HistoryServer 日志解析 & 清理异常

用户头像
笨小康1 月 8 日

线上集群在使用 Spark HistoryServer 出现过两类问题,一类问题是日志解析异常导致无法查看 Spark 作业执行记录,另一类问题是日志清理异常导致 Spark 作业写 HDFS 目录达到上限无法提交作业,针对这两类问题,我们对 Spark HistoryServer 源码展开了研究。

https://static001.geekbang.org/infoq/b0/b06b95f2260f9b640efab5a5236afd38.jpeg?x-oss-process=image/resize,w_416,h_234

数据库表数据量大读写缓慢如何优化(1)【冷热分离】

软件架构场景之数据量大情况下读写缓慢如何优化系列。欢迎大家讨论! 个人信息里有公众号,喜欢的可以关注一下。

https://static001.geekbang.org/infoq/77/772f95c083c8ed17db69e6d507b081c4.jpeg?x-oss-process=image/resize,w_416,h_234

一文教你学会 Hive 视图和索引

用户头像
大数据老哥1 月 6 日

我们在写HQL有没有遇到过数据量特别大的时候比如,使用HQL 处理起来非常复杂,非常慢,这时候我们可以使用Hive给加个索引来提高我们的速度。点赞 点赞 点赞

https://static001.geekbang.org/infoq/ed/edb918383b406e43505b9a587a3cbac0.jpeg?x-oss-process=image/resize,w_416,h_234

深入讲解拉链表,还怕面试官问?

用户头像
大数据老哥1 月 6 日

今天给大家分享下面试官常问的拉链表。万字文章带入深入了解并带你实操拉链表就怕你不会。点赞 点赞 点赞。

https://static001.geekbang.org/infoq/8b/8bb58b9448048cffbae63a001929dd4c.jpeg?x-oss-process=image/resize,w_416,h_234

Angel 图神经网络算法在推荐场景下的实践

用户头像
DataFunTalk1 月 5 日

随着数据多样性的发展,图计算已经成为业界的一个重要的研究方向。

大数据_大数据资料文章-InfoQ写作平台