写点什么

大数据开发

3 人感兴趣 · 122 次引用

  • 最新
  • 推荐

基于阿里云 EMR Serverless Spark 版快速搭建 OSS 日志分析应用

本文将以 OSS 日志处理场景为例,演示使用 EMR Serverless Spark 产品快速搭建日志分析应用。

大数据开发与低代码:加速数据处理与解决方案开发

随着数据量的爆炸式增长,大数据开发变得愈发重要。然而,传统的大数据开发方法往往需要复杂的编码和开发过程,消耗时间和资源。而低代码开发平台的出现为大数据开发带来了全新的解决方案。本文将介绍大数据开发和低代码的概念,并探讨它们如何结合,为开发人

Databricks Data Science&Engineering 模块介绍

用户头像
Jackchang234987
2022-09-30

Databricks 数据科学与工程(有时简称为“工作区”)是基于 Apache Spark 的数据开发&分析平台。 它最早是与 Azure 集成,以提供一键式安装程序、简化的工作流程以及交互式工作区,从而使数据工程师、数据科学家和机器学习工程师之间可以进行协作。

大数据培训 Hive 相关知识的全面总结

用户头像
@零度
2022-07-15

​但是在大数据环境下,通常数据的来源是服务端的埋点数据,很可能需要把程序中的某些对象内容作为输出的一部分,而每一个对象都可能是嵌套的,所以如果能够原生的支持这种数据,这样在查询的时候就不需要额外的解析便能获得想要的结果_大数据培训。

大数据培训如何优化 HiveSQL

用户头像
@零度
2022-07-14

​Parquet是一种列式数据存储格式,可以兼容多种计算引擎,如MapRedcue和Spark等,对多层嵌套的数据结构提供了良好的性能支持,是目前Hive生产环境中数据存储的主流选择之一_大数据培训。

大数据培训 Hive 的数据存储与压缩

用户头像
@零度
2022-07-13

​列存储的特点:因为每个字段的数据聚集存储,在查询只需要少数几个字段的时候,能大大减少读取的数据量;每个字段的数据类型一定是相同的,列式存储可以针对性的设计更好的设计压缩算法。ORC和PARQUET是基于列式存储的_大数据培训。

大数据培训 Spark 数据倾斜问题的解决方法

用户头像
@零度
2022-07-12

​注意,要区分开数据倾斜与数据过量这两种情况,数据倾斜是指少数task被分配了绝大多数的数据,因此少数task运行缓慢;数据过量是指所有task被分配的数据量都很大,相差不多,所有task都运行缓慢_大数据培训。

https://static001.geekbang.org/infoq/b2/b2e1ab8e6930b8c5500d6df550741942.jpeg?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

Efficient ETL Testing

用户头像
Bright
2022-07-06

It’s always been a pain point to do ETL testing. But it more and more becomes a must after data being so widely used these days. But there are a lot of challenges about ETL testing there, and we see a lot of teams struggling.

大数据培训 | Scala 语言知识分享,直击面试

用户头像
@零度
2022-07-01

​类参数可以直接在类的主体中使用。类参数同样可以使用var作前缀,还可以使用private、protected、override修饰。scala编译器会收集类参数并创造出带同样的参数的类的主构造器。,并将类内部任何既不是字段也不是方法定义的代码编译至主构造器中_大数据培训

大数据培训 | Flink 专题面试

用户头像
@零度
2022-06-30

会使用 RocksdbKeyedStateBackend 去管理状态;用户在配置 memory,filesystem 时,会使用 HeapKeyedStateBackend 去管理状态。因此就有了这个问题的结论,配置 rocksdb 只会影响 keyed-state 存储的方式和地方,operator-state 不会受到影响_大数据培训。

Scala 基础 (四):函数式编程【从基础到高阶应用】

学习函数时编程之前我们先来了解一下目前比较流行的、不同的编程范式。

大数据培训 | Flink SQL 窗口表值函数聚合实现原理

用户头像
@零度
2022-06-29

​SqlWindowTableFunction及其各个实现类的主要工作是校验TVF的操作数是否合法(通过内部抽象类AbstractOperandMetadata和对应的子类OperandMetadataImpl)。这一部分不再赘述,在下文改进累积窗口TVF的代码中会涉及到_大数据培训。

https://static001.geekbang.org/infoq/3b/3b9f35a7d2f387d75119e3daf70bf66a.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

Neat Syntax Design of an ETL Language (Part 2)

用户头像
Bright
2022-06-25

How to design a neat ETL programming language that people like to use? Let’s have a look at how Easy SQL does. (This topic is broken into two parts. This is the second part.)

大数据培训 Spark 高频面试考点分享

用户头像
@零度
2022-06-24

​Spark 不一定非要跑在 hadoop 集群,可以在本地,起多个线程的方式来指定。将 Spark 应用以多线程的方式直接运行在本地,一般都是为了方便调试 _大数据培训。

大数据培训 | 电商用户行为分析之商业指标统计分析

用户头像
@零度
2022-06-22

对于电商企业来说,一般会通过各种不同的渠道对自己的 APP 进行市场推广,而这些渠道的统计数据(比如,不同网站上广告链接的点击量、APP 下载量)就成了市场营销的重要商业指标_大数据培训。

北京大数据培训 | 电商用户行为分析之实时流量统计

用户头像
@零度
2022-06-22

我们现在要实现的模块是 “实时流量统计”。对于一个电商平台而言,用户登录的入口流量、不同页面的访问流量都是值得分析的重要数据,而这些数据,可以简单地从 web 服务器的日志中提取出来_大数据培训。

大数据培训 flink 之电商用户行为项目整体介绍

用户头像
@零度
2022-06-21

我们可以从中对数据进行深入分析,得到用户画像,进而对用户给出个性化的推荐商品列表,这个过程往往会用到机器学习相关的算法;另一类则是常规的业务操作,但需要着重关注一些异常状况以做好风控,比如登录和订单支付_大数据培训。

大数据培训 Flink 之 Table API 与 SQL

用户头像
@零度
2022-06-20

如果流中的数据类型是 case class 可以直接根据 case class 的结构生成 table_大数据培训

https://static001.geekbang.org/infoq/3b/3b9f35a7d2f387d75119e3daf70bf66a.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

Neat Syntax Design of an ETL Language (Part 1)

用户头像
Bright
2022-06-17

How to design a neat ETL programming language that people like to use? Let’s have a look at how Easy SQL does.

大数据培训 Flink 中的 Window 理解与分析

用户头像
@零度
2022-06-17

​适用场景:适合做 BI 统计等(做每个时间段的聚合计算)_大数据培训。

大数据培训 Flink 流怎么来处理 API

用户头像
@零度
2022-06-17

返回集群执行环境,将 Jar 提交到远程服务器。需要在调用时指定 JobManager的 IP 和端口号,并指定要在集群中运行的 Jar 包_大数据培训。

大数据培训 Flink 运行架构

用户头像
@零度
2022-06-16

​一旦它获取到了足够的资源,就会将执行图分发到真正运行它们的TaskManager 上。而在运行过程中,JobManager 会负责所有需要中央协调的操作,比如说检查点(checkpoints)的协调_大数据培训。

大数据培训 Flink 简介与认知

用户头像
@零度
2022-06-16

​Flink Logo Flink 项目的理念是:“Apache Flink 是为分布式、高性能、随时可用以及准确的流处理应用程序打造的开源流处理框架”_大数据培训。

大数据培训 flink 窗口(Windows)的表现形式

用户头像
@零度
2022-06-15

Table API 中的 Group Windows 都是使用.window(w:GroupWindow)子句定义的,并且必须由 as 子句指定一个别名。为了按窗口对表进行分组,窗口的别名必须在 group by 子句中,像常规的分组字段一样引用_大数据培训。

大数据培训 Table API 和 Flink SQL 的整体介绍

用户头像
@零度
2022-06-14

​无论输入是批输入还是流式输入,在这两套 API 中,指定的查询都具有相同的语义,得到相同的结果_大数据培训。

大数据培训算法面试题分享

用户头像
@零度
2022-06-13

​如果word在map中存在,那么就执行map.put(word,map.get(word)+1),将该单词词频数加1。遍历完成之后,可以很容易找出每个文件出现频率最高的100个单词_大数据培训。

大数据培训 Flink 高频面试题分享

用户头像
@零度
2022-06-10

​Spark Streaming 支持的时间机制有限,只支持处理时间。Flink 支持了流处理程序在时间上的三个定义:处理时间、事件时间、注入时间。同时也支持 watermark 机制来处理滞后数据_大数据培训。

大数据培训 Flink 高频面试题

用户头像
@零度
2022-06-09

​如果数据源已经存在,则可以直接消费进行测试,如果数据源不存在,需要自行造压测数据进行测试_大数据培训

大数据开发_大数据开发技术文章_InfoQ写作社区