写点什么

大数据开发

1 人感兴趣 · 108 次引用

  • 最新
  • 推荐
https://static001.geekbang.org/infoq/3b/3b9f35a7d2f387d75119e3daf70bf66a.png?x-oss-process=image/resize,w_416,h_234

Neat Syntax Design of an ETL Language (Part 2)

用户头像
Bright
6 月 25 日

How to design a neat ETL programming language that people like to use? Let’s have a look at how Easy SQL does. (This topic is broken into two parts. This is the second part.)

大数据培训 Spark 高频面试考点分享

用户头像
@零度
6 月 24 日

​Spark 不一定非要跑在 hadoop 集群,可以在本地,起多个线程的方式来指定。将 Spark 应用以多线程的方式直接运行在本地,一般都是为了方便调试 _大数据培训。

大数据培训 | 电商用户行为分析之商业指标统计分析

用户头像
@零度
6 月 22 日

对于电商企业来说,一般会通过各种不同的渠道对自己的 APP 进行市场推广,而这些渠道的统计数据(比如,不同网站上广告链接的点击量、APP 下载量)就成了市场营销的重要商业指标_大数据培训。

北京大数据培训 | 电商用户行为分析之实时流量统计

用户头像
@零度
6 月 22 日

我们现在要实现的模块是 “实时流量统计”。对于一个电商平台而言,用户登录的入口流量、不同页面的访问流量都是值得分析的重要数据,而这些数据,可以简单地从 web 服务器的日志中提取出来_大数据培训。

大数据培训 flink 之电商用户行为项目整体介绍

用户头像
@零度
6 月 21 日

我们可以从中对数据进行深入分析,得到用户画像,进而对用户给出个性化的推荐商品列表,这个过程往往会用到机器学习相关的算法;另一类则是常规的业务操作,但需要着重关注一些异常状况以做好风控,比如登录和订单支付_大数据培训。

大数据培训 Flink 之 Table API 与 SQL

用户头像
@零度
6 月 20 日

如果流中的数据类型是 case class 可以直接根据 case class 的结构生成 table_大数据培训

https://static001.geekbang.org/infoq/3b/3b9f35a7d2f387d75119e3daf70bf66a.png?x-oss-process=image/resize,w_416,h_234

Neat Syntax Design of an ETL Language (Part 1)

用户头像
Bright
6 月 17 日

How to design a neat ETL programming language that people like to use? Let’s have a look at how Easy SQL does.

大数据培训 Flink 中的 Window 理解与分析

用户头像
@零度
6 月 17 日

​适用场景:适合做 BI 统计等(做每个时间段的聚合计算)_大数据培训。

大数据培训 Flink 流怎么来处理 API

用户头像
@零度
6 月 17 日

返回集群执行环境,将 Jar 提交到远程服务器。需要在调用时指定 JobManager的 IP 和端口号,并指定要在集群中运行的 Jar 包_大数据培训。

大数据培训 Flink 运行架构

用户头像
@零度
6 月 16 日

​一旦它获取到了足够的资源,就会将执行图分发到真正运行它们的TaskManager 上。而在运行过程中,JobManager 会负责所有需要中央协调的操作,比如说检查点(checkpoints)的协调_大数据培训。

大数据培训 Flink 简介与认知

用户头像
@零度
6 月 16 日

​Flink Logo Flink 项目的理念是:“Apache Flink 是为分布式、高性能、随时可用以及准确的流处理应用程序打造的开源流处理框架”_大数据培训。

大数据培训 flink 窗口(Windows)的表现形式

用户头像
@零度
6 月 15 日

Table API 中的 Group Windows 都是使用.window(w:GroupWindow)子句定义的,并且必须由 as 子句指定一个别名。为了按窗口对表进行分组,窗口的别名必须在 group by 子句中,像常规的分组字段一样引用_大数据培训。

大数据培训 Table API 和 Flink SQL 的整体介绍

用户头像
@零度
6 月 14 日

​无论输入是批输入还是流式输入,在这两套 API 中,指定的查询都具有相同的语义,得到相同的结果_大数据培训。

大数据培训算法面试题分享

用户头像
@零度
6 月 13 日

​如果word在map中存在,那么就执行map.put(word,map.get(word)+1),将该单词词频数加1。遍历完成之后,可以很容易找出每个文件出现频率最高的100个单词_大数据培训。

大数据培训 Flink 高频面试题分享

用户头像
@零度
6 月 10 日

​Spark Streaming 支持的时间机制有限,只支持处理时间。Flink 支持了流处理程序在时间上的三个定义:处理时间、事件时间、注入时间。同时也支持 watermark 机制来处理滞后数据_大数据培训。

大数据培训 Flink 高频面试题

用户头像
@零度
6 月 9 日

​如果数据源已经存在,则可以直接消费进行测试,如果数据源不存在,需要自行造压测数据进行测试_大数据培训

大数据培训 Yarn 和 Spark 配置与说明

用户头像
@零度
6 月 8 日

​此处单个节点共有16个核可供Executor使用,则spark.executor.core配置为4最合适。原因是,若配置为5,则单个节点只能启动3个Executor,会剩余1个核未使用;若配置为6,则只能启动2个Executor,会剩余4个核未使用_大数据培训。

https://static001.geekbang.org/infoq/96/9684cfa37d79f6c5a8c37f39549a4afd.webp?x-oss-process=image/resize,w_416,h_234

A Guide to Write Elegant ETL in Easy SQL

用户头像
Bright
6 月 5 日

How to write elegant ETL in SQL? With the language features provided by Easy SQL, we now have the ability to implement anything in SQL. We don't need to mix our ETL with other programming languages. And Easy SQL provides a ...

大数据培训 Hive 到 Spark 离线计算实践

用户头像
@零度
6 月 2 日

​ Jack|1|2|1 表示 Jack|1 这行数据数据在一个表中存在两行,结合差异行 Jack|1|1|1 来看其实就是 Jack|1 这行数据一个表有一行另一个表有两行。通过这个方式就可以对双跑产出的结果表进行一个全量的对比_大数据培训。

大数据培训实时数仓实践以及架构的演进

用户头像
@零度
5 月 31 日

​由于实时数据流的稳定性不如离线数据流,当实时流出现问题后需要离线数据重刷历史数据,因此实时处理部分我们采用了 lambda 架构。大数据架构系列 -- Lambda架构初体验_大数据培训。

https://static001.geekbang.org/infoq/63/63ddf5fa7178773ec1985f8770bbef10.png?x-oss-process=image/resize,w_416,h_234

A New ETL Language -- Easy SQL

用户头像
Bright
5 月 30 日

A New ETL Language -- Easy SQL Easy SQL is built to ease data development. With Easy SQL, you can develop your ETL in SQL in an imperative way. It defines a few syntax on top of standard SQL, with which SQL could be executed one by one.

大数据培训数仓实践 Kimball 维度建模

用户头像
@零度
5 月 30 日

​度量和环境这两个概念构成了维度建模的基础。而所有维度建模也正是通过对度量和及其上下文和环境的详细设计来实现的_大数据培训。

大数据培训用 SQL 来实现用户行为漏斗分析

用户头像
@零度
5 月 27 日

每日新增(老用户不算,之前没登陆过,今天是第一次登陆)设备--没有分区 -->以往的新增库里边没有他,但他今天活跃了即新增加的用户_大数据培训;

大数据培训 | Doris 数据导入与导出

用户头像
@零度
5 月 26 日

Broker load 导入方式由于是异步的,所以用户必须将创建导入的 Label 记录,并且在查看导入命令中使用 Label 来查看导入结果。查看导入命令在所有导入方式中是通用的,具体语法可执行 HELP SHOW LOAD 查看_大数据培训。

大数据培训 | 数据仓库构建方法论和实践

用户头像
@零度
5 月 25 日

​随着数据规模膨胀和业务复杂度的提升,大型企业需要构建企业级的数据仓库(数据湖)来快速支撑业务的数据化需求,与传统的数据库构建不通,数据仓库即是OLAP场景,偏于历史数据的存储/分析,用冗余存储换取数据价值

大数据培训数仓指标体系搭建

用户头像
@零度
5 月 24 日

​层级分级建议进行最多进行三级分拆,一级细分可公司层面统一规范确定,二级及后续拆分可根据业务线实际业务进行拆分_大数据培训。

大数据课程培训到离职转行这个过程你知道经历了什么吗

用户头像
@零度
5 月 23 日

​有很多的圈外人都会感觉“大数据程序员的薪资很高”,但是并不是所有的大数据程序员的薪资都是这么的高,这是存在着一定的比例的,当然也和自身的开发技术水平有一定的关系

大数据培训拉链表优化实践分享

用户头像
@零度
5 月 16 日

​对于日志型数据,又分为客户端日志和服务端日志,但无论哪类日志,一般来说均属于增量类、静态类数据,一旦产生即不会对数据本身进行再次变更_大数据培训。

【大数据培训】面试中数据仓库重要概念

用户头像
@零度
5 月 13 日

​优点:不需要完整的梳理企业业务流程和数据,实施周期根据主题边界而定,容易快速实现demo,而且相对来说便于理解、提高查询性能、对称并易扩展_大数据培训。

大数据开发_大数据开发技术文章_InfoQ写作社区