写点什么

大数据

157 人感兴趣 · 638 次引用

  • 最新
  • 推荐
https://static001.geekbang.org/infoq/b7/b797e201104ce4b1be2f9b446c2d1abc.png?x-oss-process=image/resize,w_416,h_234

博客站的架构渐进升级优化,亿级日写量架构又是什么样呢?

用户头像
读字节15 小时前

传统上建设一个博客网站需要:一个反向代理Nginx、一个应用服务、一个数据库MySQL,就能建立起来标准的WEB站。 博客现在每天新增3000多的文章量,速度已经很慢,如果后期我要做一个app数据量肯定更大,到时该怎么保证访问速度,就要考虑架构的适量改进了。

大数据前置知识 - 服务器及磁盘

1.    服务器,也称伺服器,是提供计算服务的设备。由于服务器需要响应服务请求,并进行处理,因此一般来说服务器应具备承担服务并且保障服务的能力。

https://static001.geekbang.org/infoq/bf/bf2e3b5e4eafb4d4d07596a12c8a7036.jpeg?x-oss-process=image/resize,w_416,h_234

100 万级车辆数据监控的 hadoop 大数据架构探索与实践

用户头像
黑马腾云4 月 11 日

作者有幸在前些年主导并尝试使用hadoop大数据生态技术对传统车联网项目进行改造,取得了一些成果。本文对该项目进行复盘,聊聊大数据架构在车联网行业中的实践。

https://static001.geekbang.org/infoq/1b/1bbb9987bb9c2836213439241ae4c8c4.png?x-oss-process=image/resize,w_416,h_234

数据中台前世今生

用户头像
李孟4 月 11 日

中台被彻底炒火,就好像当初只要有存储的公司,就要整理出大数据环境体系一样,各个行业大厂去做类似中台建设的案例,有成功的,有规划建设一段时间,无法支撑的等等,诸如此类,那么这个概念是否只是一时噱头呢?中台的定义是什么?作用是什么?

释放千行百业数据价值,华为云 DAYU 有一套

​​​​摘要: 结合数字化转型中行业面临的挑战及产品解决方案解读数据使能服务DAYU。

https://static001.geekbang.org/infoq/82/8266cd28f075f3684e26c426069a71aa.jpeg?x-oss-process=image/resize,w_416,h_234

大数据作业的工作流调度详解

工作流(Workflow),是对工作流程及其各操作步骤之间业务规则的抽象、概括描述。工作流建模,即将工作流程中的工作如何前后组织在一起的逻辑和规则,在计算机中以恰当的模型表达并对其实施计算。

https://static001.geekbang.org/infoq/27/275e7fd027aad29724339cc09f061a1c.jpeg?x-oss-process=image/resize,w_416,h_234

技术分享第二讲报名!

神策——大数据技术直播系列课报名了哦!4月15日,晚上七点到八点半,扫描图中二维码,带你了解《如何用 JS 实现页面录制与回放》快来报名呀!!

https://static001.geekbang.org/infoq/96/968228895ffec85879f328f59dcef782.png?x-oss-process=image/resize,w_416,h_234

DataSphere Studio 0.9.1 版本发布

用户头像
WeDataSphere4 月 7 日

DataSphere Studio 0.9.1 是在微众银行的倾力帮助下,由天翼云大数据团队 主导完成的一个重要版本。该版本旨在通过新增“新用户初始化”特性,为社区用户降低运维DSS、Linkis和Schedulis等WeDataSphere组件的运维成本。

https://static001.geekbang.org/infoq/93/93ae4140b6fec35e73e6284d8fd5e492.webp?x-oss-process=image/resize,w_416,h_234

博文推荐|多图详解 Apache Pulsar 消息存储模型

用户头像
Apache Pulsar4 月 6 日

Apache Pulsar 是 Apache 软件基金会顶级项目,是下一代云原生分布式消息流平台,集消息、存储、轻量化函数式计算为一体,采用计算与存储分离架构设计,支持多租户、持久化存储、多机房跨区域数据复制,具有强一致性、高吞吐、低延时及高可扩展性等流数据存储

https://static001.geekbang.org/infoq/a8/a8e648f83a451247db54d19f3b127e16.jpeg?x-oss-process=image/resize,w_416,h_234

Apache Oozie 基本原理与工作流类型

Oozie 是一个用来管理Hadoop生态圈job的工作流调度系统。由Cloudera公司贡献给Apache。Oozie是运行于Java servlet容器上的一个java web应用。Oozie的目的是按照DAG(有向无环图)调度一系列的Map/Reduce或者Hive等任务。Oozie 工作流由hPDL(Hadoop Process

https://static001.geekbang.org/infoq/88/882aded58ff48e1528f1f53d51831751.jpeg?x-oss-process=image/resize,w_416,h_234

一文学完所有的 Hive Sql(两万字最全详解)

本文基本涵盖了Hive日常使用的所有SQL,因为SQL太多,所以将SQL进行了如下分类:一、DDL语句(数据定义语句):

https://static001.geekbang.org/infoq/a0/a02a8530889d3d0470ba3f343c3dbd8d.jpeg?x-oss-process=image/resize,w_416,h_234

酷家乐 x DorisDB :家居 SaaS 独角兽如何实现数据分析全面升级,大幅降低平台成本

用户头像
DorisDB4 月 1 日

酷家乐是群核科技旗下知名业务品牌,专注云设计系统及三维内容制作的技术研发和应用,面向家居、房产、公装等全空间领域,为企业级客户提供设计渲染、营销展示、生产施工、几何建模等场景的解决方案和服务。

https://static001.geekbang.org/infoq/f6/f6b09a8045395b8fdefa32d1bcaaa946.png?x-oss-process=image/resize,w_416,h_234

DorisDB 致工程师们的一封信

用户头像
DorisDB4 月 1 日

如果你仍然怀有技术梦想,仍然想做出全球领先的产品,仍然想突破不可能,如果这种念头让你兴奋不已,请加入我们,因为我们就是这样一群可以实现不可能的人!

统一元数据,数据湖 Catalog 让大数据存算分离不再是问题

​​摘要: 为了解决现阶段大数据存算分离痛点问题,华为云大数据推出重量级数据湖Catalog服务。

世界首台人工智能地震监测系统问世;AAAI 2021 | 利用深度元学习对城市销量进行预测

开发者社区技术周刊又和大家见面了,快来看看这周有哪些值得我们开发者关注的重要新闻吧。

https://static001.geekbang.org/infoq/16/167f5dec137337b3efdbe301aec6b025.jpeg?x-oss-process=image/resize,w_416,h_234

国内唯一,阿里云挺进 Forrester 全球云数据仓库卓越表现者象限

阿里云凭借产品现有能力、产品战略、市场表现三项优势,进入Forrester Wave 2021 Q1云数据仓库卓越表现者象限,成为入选此次评测的唯一中国厂商,并由竞争者象限跃升至卓越表现者象限。

https://static001.geekbang.org/infoq/9d/9d77f0549262a20c7a516b2ec09558a8.png?x-oss-process=image/resize,w_416,h_234

爱奇艺大数据生态的实时化建设

本文节选自Flink Forward 2020分享《爱奇艺实时大数据生态的演进》

https://static001.geekbang.org/infoq/7a/7a53b17d9643f8ce0ca2f57725f7c028.jpeg?x-oss-process=image/resize,w_416,h_234

云端数智新引擎,腾讯云原生数据湖计算重磅发布

用户头像
小小的一朵云3 月 26 日

敏捷高效、开箱即用、成本最优,云端数据湖家族上新

https://static001.geekbang.org/infoq/ec/ecc1200800b691aa19ad4660bfb5984f.png?x-oss-process=image/resize,w_416,h_234

大咖云集!阿里达摩院领航大数据 + AI 向量检索专场 Meetup 回顾(内含讲师 PPT 领取)

阿里云开发者社区 x 达摩院 x计算平台事业部 大数据 + AI向量检索专场。来自,阿里巴巴、爱奇艺、Zilliz、搜狐、Jina.AI等公司的九位重量级讲师在现场分享了他们前沿的向量检索技术思考与实践沉淀总结,快来领取讲师精彩ppt!

https://static001.geekbang.org/infoq/c4/c49f4af91bb8981d2e864eaca6a36e90.jpeg?x-oss-process=image/resize,w_416,h_234

zookeeper 的 watch 机制

Zookeeper 是一个分布式协调服务的开源框架。 主要用来解决分布式集群中应用系统的一致性问题,例如怎样避免同时操作同一数据造成脏读的问题。

https://static001.geekbang.org/infoq/fb/fb0591be622e7a0cfd3a37bed820254c.jpeg?x-oss-process=image/resize,w_416,h_234

深圳正探索利用区块链技术理念打造“数字政府“

根据政府相关报告,目前深圳市政务服务数据管理局会同相关部门充分研究,积极探索区块链技术在行政执法管理工作中的可行性,已开展相关工作。

https://static001.geekbang.org/infoq/89/8975485cc2a68e227c5c1135f4674c83.png?x-oss-process=image/resize,w_416,h_234

MapReduce 中 shuffle 阶段的数据压缩机制

在shuffle阶段,可以看到数据通过大量的拷贝,从map阶段输出的数据,都要通过网络拷贝,发送到reduce阶段,这一过程中,涉及到大量的网络IO,如果数据能够进行压缩,那么数据的发送量就会少得多,那么如何了解hadoop当中支持文件的那些压缩算法, 已经如何配置

https://static001.geekbang.org/infoq/e4/e4797fa6b4b33a063aa396fa67081f33.jpeg?x-oss-process=image/resize,w_416,h_234

Spark 性能调优 -Shuffle 调优及故障排除篇

本文开始先讲解Shuffle核心概念;然后针对HashShuffle、SortShuffle进行调优;接下来对map端、reduce端调优;再针对Spark中的数据倾斜问题进行剖析及调优;最后是Spark运行过程中的故障排除。

https://static001.geekbang.org/infoq/01/019fd36a1d0b1c521d80843a7b7680b8.jpeg?x-oss-process=image/resize,w_416,h_234

神策大数据技术直播系列课第二季,开讲啦

用户头像
神策技术社区3 月 24 日

快来扫码报名,第一讲《前端国际化》于3月31日正式开始!

https://static001.geekbang.org/infoq/1e/1ed4815548718a63507fb8e744dd215d.jpeg?x-oss-process=image/resize,w_416,h_234

MapReduce 的运行机制详解

整个Map阶段流程大体如上图所示。

大数据_大数据资料文章-InfoQ写作平台