写点什么

大数据

171 人感兴趣 · 731 次引用

  • 最新
  • 推荐
https://static001.geekbang.org/infoq/6f/6f5b9ae11c45ce2a1ffc2aef0d6d64ab.jpeg?x-oss-process=image/resize,w_416,h_234

万字长文详解 HiveSQL 执行计划

Hive SQL的执行计划描述SQL实际执行的整体轮廓,通过执行计划能了解SQL程序在转换成相应计算引擎的执行逻辑,掌握了执行逻辑也就能更好地把握程序出现的瓶颈点,从而能够实现更有针对性的优化。此外还能帮助开发者识别看似等价的SQL其实是不等价的,看似不等

https://static001.geekbang.org/infoq/44/443b0279456d5431bb3e1d409dcc613e.png?x-oss-process=image/resize,w_416,h_234

PornNet:色情视频内容识别网络

用户头像
百度Geek说6 月 22 日

 色情视频内容已经严重危害互联网安全,色情内容常以图像和音频两种形式存在,本文介绍了基于图像和音频的色情视频内容识别方法。

https://static001.geekbang.org/infoq/a7/a764eab613e230e7cb99074cac628bf8.png?x-oss-process=image/resize,w_416,h_234

Flink 集成 hive 测试及生产规划

用户头像
一弦思华年6 月 20 日

Flink在1.10开始,Flink对catalog模块进行了重构,能够兼容hive的catalog,并与之打通。作为离线计算的经久不衰的Hive组件,使用扮演着开源离线领域数仓的基础,很多公司的离线数仓都是以Hdfs,Yarn,Hive为基础建设起来的。

https://static001.geekbang.org/infoq/ef/efdcaf376241f6b0877a038d7cb44593.png?x-oss-process=image/resize,w_416,h_234

新一代数仓架构 -Snowflake 弹性数仓

用户头像
一弦思华年6 月 19 日

随着企业数字化深入推进,企业对云的应用程度也越来越深,对数据仓库的需求进一步发生了变化,推动了第四代数据仓库——以Snowflake为代表的“云原生数据仓库”的崛起。本文是基于国外论文snowflake数仓(The Snowflake Elastic Data Warehouse)翻译。

https://static001.geekbang.org/infoq/4a/4a91683c10117fbe7e0c28bd305e6e11.jpeg?x-oss-process=image/resize,w_416,h_234

「SQL 数据分析系列」8. 分组和聚合

用户头像
数据与智能6 月 19 日

写在前面: 大家好,我是强哥,一个热爱分享的技术狂。目前已有 12 年大数据与AI相关项目经验, 10 年推荐系统研究及实践经验。平时喜欢读书、暴走和写作。

星环科技 TDH8.0 使用必读 2: 10 种数据模型全支持 未来属于多模型大数据平台

用户头像
星环科技6 月 16 日

星环多模型大数据管理平台TDH 8.0,采用“接口、计算、管理、调度四层统一、存储模型十种异构”的创新架构,在保障不同数据模型高性能、高可靠、高可用的同时,实现了资源配置更灵活、操作运维更简洁易用的目标。

https://static001.geekbang.org/infoq/3f/3f5f83e45121ccbdb369e7a290a4dc33.jpeg?x-oss-process=image/resize,w_416,h_234

基于开源引擎打造自主可控服务体系

用户头像
张亮6 月 15 日

在滴滴负责过LogAgent、Kafka、Flink、Elasticsearch、Clickhouse等开源大数据引擎服务体系建设工作,走过很多弯路,趟过很多坑,积累了一些实战经验;近一年疫情肆虐,加速了企业数字化转型的步伐,与数十家互联网、金融、证券、教育企业进行了深度交流

看 Kunpeng BoostKit 使能套件如何实现大数据场景倍级性能提升

​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​摘要:本次鲲鹏 BoostKit 训练营为开发者介绍如何基于鲲鹏 BoostKit 使能套件实现应用性能的加速,并重点剖析性能优化技术和关键能力。

Pandas 之:Pandas 高级教程以铁达尼号真实数据为例

用户头像
程序那些事6 月 7 日

今天我们会讲解一下Pandas的高级教程,包括读写文件、选取子集和图形表示等。

Hadoop 实战篇(1)

用户头像
进击的梦清6 月 5 日

在前面介绍过了Hadoop-离线批处理技术的整体架构,接下来便开始学习安装配置并使用 Hadoop ; 将从以下几点介绍: Linux 环境的配置与安装 Hadoop、Hadoop 的三种安装模式介绍、本地模式安装和伪集群模式安装

https://static001.geekbang.org/infoq/a3/a38ea7f0a9e4324c1afa5b527c64a7c6.png?x-oss-process=image/resize,w_416,h_234

ETL 工程师必看!超实用的任务优化与断点执行方案

用户头像
会飞的鱼6 月 4 日

随着大数据时代的快速发展,企业每天需要存储、计算、分析数以万亿的数据,同时还要确保分析的数据具备及时性、准确性和完整性。面对如此庞大的数据体系,ETL工程师(数据分析师)如何能高效、准确地进行计算并供业务方使用,就成了一个难题。

Tapdata 实时数据融合平台解决方案(五):落地

作者介绍:TJ,唐建法,Tapdata 钛铂数据 CTO,MongoDB中文社区主席,原MongoDB大中华区首席架构师,极客时间MongoDB视频课程讲师。

Tapdata 实时数据融合平台解决方案(四):技术选型

作者介绍:TJ,唐建法,Tapdata 钛铂数据 CTO,MongoDB中文社区主席,原MongoDB大中华区首席架构师,极客时间MongoDB视频课程讲师。

https://static001.geekbang.org/infoq/56/561d66aa91ccfc66b6ae5744fdc5ca3d.jpeg?x-oss-process=image/resize,w_416,h_234

个推 CTO 谈数据中台 (上):从要求、方法论到应用实践

用户头像
个推6 月 1 日

从概念定义、价值赋能、战略理论、落地实践等方面层层剖析,旨在帮助大数据、数字化领域以及相关行业从业者梳理出一个聚焦当下、增能未来的中台建设新路径

Logstash- 数据流引擎

用户头像
进击的梦清5 月 31 日

Logstash是具有实时流水线功能的开源数据收集引擎。Logstash可以动态统一来自不同来源的数据,并将数据标准化到您选择的目标位置。清除所有数据并使其民主化,以用于各种高级下游分析和可视化用例。

大数据采集和常见问题

用户头像
数据社5 月 31 日

大家好,我是一哥,今天给大家讲解一下大数据面试中对于数据采集部分的一些问题。

不愧是 Alibaba 技术官,Kafka 的精髓全写这本“限量笔记”里,服了

用户头像
云流5 月 31 日

分布式,是程序员必备技能之一,在面试过程中属于必备类的,在工作中更是会经常用到。而Kafka是一个分布式的基于发布订阅的消息队列,目前它的魅力是无穷的,对于Kafka的奥秘,还需要我们细细去探寻。

日志收集组件—Flume、Logstash、Filebeat 对比

用户头像
数据社5 月 28 日

数据的价值在于把数据变成行动。这里一个非常重要的过程是数据分析。提到数据分析,大部分人首先想到的都是Hadoop、流计算、机器学习等数据加工的方式。从整个过程来看,数据分析其实包含了4个过程:采集,存储,计算,展示。大数据的数据采集工作是大数据技

https://static001.geekbang.org/infoq/50/50e1909bdb64b991205e6a65eedbed15.jpeg?x-oss-process=image/resize,w_416,h_234

MPP 大规模并行处理架构详解

面试官:说下你知道的MPP架构的计算引擎?

https://static001.geekbang.org/infoq/c4/c49f4af91bb8981d2e864eaca6a36e90.jpeg?x-oss-process=image/resize,w_416,h_234

Flume 自定义拦截器

Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。Flume有各种自带的拦截器,比

https://static001.geekbang.org/infoq/0f/0fc40fbe0300cecec2e4c4b0824edf19.png?x-oss-process=image/resize,w_416,h_234

如何入门数据分析?

用户头像
数据社5 月 26 日

如今,大多数公司都意识到数据驱动的商业策略的价值,因此需要有数据分析才能的人来洞察不断收集的信息。随着我们继续将现实世界数字化,对分析师的需求只会增加。 可以了解之前讲解的《数据分析为什么火了》。

https://static001.geekbang.org/infoq/f7/f7bc64c9786b87e05bcd4e6a5e2c3407.png?x-oss-process=image/resize,w_416,h_234

Hive 对分区分桶表的操作

在大数据中,最常用的一种思想就是分治,我们可以把大的文件切割划分成一个个的小的文件,这样每次操作一个小的文件就会很容易了,同样的道理,在hive当中也是支持这种思想的,就是我们可以把大的数据,按照每天,或者每小时进行切分成一个个的小的文件,这样

https://static001.geekbang.org/infoq/85/857c67577db45453b80f8ff6ca06c032.jpeg?x-oss-process=image/resize,w_416,h_234

Spark 知识点简单总结

Hadoop底层使用MapReduce计算架构,只有map和reduce两种操作,表达能力比较欠缺,而且在MR过程中会重复的读写hdfs,造成大量的磁盘io读写操作,所以适合高时延环境下批处理计算的应用;

https://static001.geekbang.org/infoq/8e/8e119eb530a5d944982e6d7e44f00f0a.jpeg?x-oss-process=image/resize,w_416,h_234

Flink 的 Time 与 Window

在Flink的流式处理中,会涉及到时间的不同概念,如下图所示:

https://static001.geekbang.org/infoq/3c/3c41c85ad3c3739cb76513b2b48e4dce.webp?x-oss-process=image/resize,w_416,h_234

HBase 常见问题

用户头像
数据社5 月 23 日

HBase在大数据技术领域中占据了重要的作用,整理了一些面试问题,大家收藏,文末可以获取PPT。

https://static001.geekbang.org/infoq/98/98a572b4e03be9eeb015a554b16d6177.jpeg?x-oss-process=image/resize,w_416,h_234

如何提升 Hadoop 访问对象存储 US3 的效率?我们做了这些技术实践

用户头像
UCloud技术5 月 22 日

​在信息爆炸的大数据时代,如何以更低成本来解决海量数据的存储问题,已成为企业大数据业务中的重要一环。UCloud自研的新一代对象存储服务US3,在过去一段时间,针对大数据业务场景推出了计算存储分离和大数据备份解决方案。

数据仓库如何确定主题域?

用户头像
数据社5 月 22 日

前几天跟一个朋友聊了一些数据中台建设的内容,针对数据仓库中主题域如何划分这个话题聊了很多。其实数据仓库建设的理论大家已经都知道了不少,也看过不少书,那么在实际建设数据仓库中,我们还是会遇到各种问题。今天我们就一起聊聊主题域如何划分?

大数据_大数据资料文章-InfoQ写作平台