写点什么

30 分钟掌握沧湖一体化:flink+hudi

  • 2022 年 5 月 03 日
  • 本文字数:3928 字

    阅读完需:约 13 分钟

Hudi 解决了以下限制


  • HDFS 的可伸缩性限制

  • 需要在 Hadoop 中更快地呈现数据

  • 没有直接支持对现有数据的更新和删除

  • 快速的 ETL 和建模

  • 要检索所有更新的记录,无论这些更新是添加到最近日期分区的新记录还是对旧数据的更新,Hudi 都允许用户使用最后一个检查点时间戳。此过程不用执行扫描整个源表的查询


Hudi 的优势




  • HDFS 中的可伸缩性限制。

  • Hadoop 中数据的快速呈现

  • 支持对于现有数据的更新和删除

  • 快速的 ETL 和建模


(以上内容主要引用于:[Apache Hudi 详解_风中云彩的博客-CSDN 博客](())


新架构与湖仓一体


============


通过湖仓一体、流批一体,准实时场景下做到了:数据同源、同计算引擎、同存储、同计算口径。数据的时效性可以到分钟级,能很好的满足业务准实时数仓的需求。下面是架构图:



点击并拖拽以移动


MySQL 数据通过 Flink CDC 进入到 Kafka。之所以数据先入 Kafka 而不是直接入 Hudi,是为了实现多个实时任务复用 MySQL 过来的 《一线大厂 Java 面试题解析+后端开发学习笔记+最新架构讲解视频+实战项目源码讲义》无偿开源 威信搜索公众号【编程进阶路】 数据,避免多个任务通过 Flink CDC 接 MySQL 表以及 Binlog,对 MySQL 库的性能造成影响。


通过 CDC 进入到 Kafka 的数据除了落一份到离线数据仓库的 ODS 层之外,会同时按照实时数据仓库的链路,从 ODS->DWD->DWS->OLAP 数据库,最后供报表等数据服务使用。实时数仓的每一层结果数据会准实时的落一份到离线数仓,通过这种方式做到程序一次开发、指标口径统一,数据统一。


从架构图上,可以看到有一步数据修正 (重跑历史数据) 的动作,之所以有这一步是考虑到:有可能存在由于口径调整或者前一天的实时任务计算结果错误,导致重跑历史数据的情况。


而存储在 Kafka 的数据有失效时间,不会存太久的历史数据,重跑很久的历史数据无法从 Kafka 中获取历史源数据。再者,如果把大量的历史数据再一次推到 Kafka,走实时计算的链路来修正历史数据,可能会影响当天的实时作业。所以针对重跑历史数据,会通过数据修正这一步来处理。


总体上说,这个架构属于 Lambda 和 Kappa 混搭的架构。流批一体数据仓库的各个数据链路有数据质量校验的流程。第二天对前一天的数据进行对账,如果前一天实时计算的数据无异常,则不需要修正数据,Kappa 架构已经足够。


(本节内容,引用自:37 手游基于 Flink CDC + Hudi 湖仓一体方案实践)


最佳实践


====


版本搭配




版本选择,这个问题可能会成为困扰大家的第一个绊脚石,下面是 hudi 中文社区推荐的版本适配:


| flink | hudi |


| --- | --- |


| 1.12.2 | 0.9.0 |


| 1.13.1 | 0.10.0 |


官方说的支持版本是这样, 不过目前我的 1.13 和 0.10 组合并没有配置成功,所以大家还是尽量选择 1.12.2+0.9.0 吧,配合_scala 2.11_ 。


下载 hudi




[https://mvnrepository.com/artifact/org.apache.hudi/hudi-flink-bundle](()


执行


--


如果将 hudi-flink-bundle_2.11-0.9.0.jar 放到了 flink/lib 下,则只需要如下执行即可,否则会出现各种找不到类的异常


bin/sql-client.sh embedded


Flink on hudi


=============


新建 maven 工程,修改 pom 如下


<?xml version="1.0" encoding="UTF-8"?>


<project xmlns="http://maven.apache.org/POM/4.0.0"


xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"


xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">


<modelVersion>4.0.0</modelVersion>


?


<groupId>org.example</groupId>


<artifactId>flink_hudi_test</artifactId>


<version>1.0-SNAPSHOT</version>


?


<properties>


<maven.compiler.source>8</maven.compiler.source>


<maven.compiler.target>8</maven.compiler.target>


</properties>


?


<dependencies>


?


?


<dependency>


<groupId>org.apache.hadoop</groupId>


<artifactId>hadoop-client</artifactId>


<version>2.9.2</version>


</dependency>


<dependency>


<groupId>org.apache.hadoop</groupId>


<artifactId>hadoop-hdfs</artifactId>


<version>2.9.2</version>


</dependency>


<dependency>


<groupId>org.apache.hadoop</groupId>


<artifactId>hadoop-common</artifactId>


<version>2.9.2</version>


</dependency>


?


?


<dependency>


<groupId>org.apache.flink</groupId>


<artifactId>flink-core</artifactId>


<version>1.12.2</version>


</dependency>


<dependency>


<groupId>org.apache.flink</groupId>


<artifactId>flink-streaming-java_2.11</artifactId>


<version>1.12.2</version>


</dependency>


?


<dependency>


<groupId>org.apache.flink</groupId>


<artifactId>flink-connector-jdbc_2.11</artifactId>


<version>1.12.2</version>


</dependency>


?


<dependency>


<groupId>org.apache.flink</groupId>


<artifactId>flink-java</artifactId>


<version>1.12.2</version>


</dependency>


<dependency>


<groupId>org.apache.flink</groupId>


<artifactId>flink-clients_2.11</artifactId>


<version>1.12.2</version>


</dependency>


<dependency>


<groupId>org.apache.flink</groupId>


<artifactId>flink-table-api-java-bridge_2.11</artifactId>


<version>1.12.2</version>


</dependency>


<dependency>


<groupId>org.apache.flink</groupId>


<artifactId>flink-table-common</artifactId>


<version>1.12.2</version>


</dependency>


?


<dependency>


<groupId>org.apache.flink</groupId>


<artifactId>flink-table-planner_2.11</artifactId>


<version>1.12.2</version>


</dependency>


?


<dependency>


<groupId>org.apache.flink</groupId>


<artifactId>flink-table-planner-blink_2.11</artifactId>


<version>1.12.2</version>


</dependency>


<dependency>


<groupId>org.apache.flink</groupId>


<artifactId>flink-table-planner-blink_2.11</artifactId>


<version>1.12.2</version>


<type>test-jar</type>


</dependency>


?


<dependency>


<groupId>com.alibaba.ververica</groupId>


<artifactId>flink-connector-mysql-cdc</artifactId>


<version>1.2.0</version>


</dependency>


?


?


?


?


?


<dependency>


<groupId>org.apache.hudi</groupId>


<artifactId>hudi-flink-bundle_2.11</artifactId>


<version>0.9.0</version>


</dependency>


?


<dependency>


<groupId>mysql</groupId>


<artifactId>mysql-connector-java</artifactId>


<version>5.1.49</version>


</dependency>


?


?


</dependencies>


</project>


我们通过构建查询insert into t2 select replace(uuid(),'-',''),id,name,description,now() from mysql_binlog 将创建的 mysql 表,插入到 hudi 里。


package name.lijiaqi;


?


import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;


import org.apache.flink.table.api.EnvironmentSettings;


import org.apache.flink.table.api.SqlDialect;


import org.apache.flink.table.api.TableResult;


import org.apache.flink.table.api.bridge.java.StreamTableEnvironment;


?


public class MysqlToHudiExample {


public static void main(String[] args) throws Exception {


EnvironmentSettings fsSettings = EnvironmentSettings.newInstance()


.useBlinkPlanner()


.inStreamingMode()


.build();


StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();


env.setParallelism(1);


StreamTableEnvironment tableEnv = StreamTableEnvironment.create(env, fsSettings);


?


tableEnv.getConfig().setSqlDialect(SqlDialect.DEFAULT);


?


// 数据源表


String sourceDDL =


"CREATE TABLE mysql_binlog (\n" +


" id INT NOT NULL,\n" +


" name STRING,\n" +


" description STRING\n" +


") WITH (\n" +


" 'connector' = 'jdbc',\n" +


" 'url' = 'jdbc:mysql://127.0.0.1:3306/test', \n"+


" 'driver' = 'com.mysql.jdbc.Driver', \n"+


" 'username' = 'root',\n" +


" 'password' = 'dafei1288', \n" +


" 'table-name' = 'test_cdc'\n" +


")";


?


// 输出目标表


String sinkDDL =


"CREATE TABLE t2(\n" +


"\tuuid VARCHAR(20),\n"+


"\tid INT NOT NULL,\n" +


"\tname VARCHAR(40),\n" +


"\tdescription VARCHAR(40),\n" +


"\tts TIMESTAMP(3)\n"+


// ? ? ? ? ? ? ? ? ? ? ? "\tpartition VARCHAR(20)\n" +


")\n" +


// ? ? ? ? ? ? ? ? ? ? ? "PARTITIONED BY (partition)\n" +


"WITH (\n" +


"\t'connector' = 'hudi',\n" +


"\t'path' = 'hdfs://172.19.28.4:9000/hudi_t4/',\n" +


"\t'table.type' = 'MERGE_ON_READ'\n" +


")" ;


// 简单的聚合处理


String transformSQL =


"insert into t2 select replace(uuid(),'-',''),id,name,description,now() from mysql_binlog";


?


tableEnv.executeSql(sourceDDL);


tableEnv.executeSql(sinkDDL);


TableResult result = tableEnv.executeSql(transformSQL);


result.print();


?


env.execute("mysql-to-hudi");


}


}


查询 hudi


package name.lijiaqi;


?


import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;


import org.apache.flink.table.api.EnvironmentSettings;


import org.apache.flink.table.api.SqlDialect;


import org.apache.flink.table.api.TableResult;


import org.apache.flink.table.api.bridge.java.StreamTableEnvironment;


?


public class ReadHudi {


public static void main(String[] args) throws Exception {


EnvironmentSettings fsSettings = EnvironmentSettings.newInstance()


.useBlinkPlanner()


.inStreamingMode()


.build();


StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();


env.setParallelism(1);


StreamTableEnvironment tableEnv = StreamTableEnvironment.create(env, fsSettings);


?


tableEnv.getConfig().setSqlDialect(SqlDialect.DEFAULT);


?

用户头像

还未添加个人签名 2022.04.13 加入

还未添加个人简介

评论

发布
暂无评论
30分钟掌握沧湖一体化:flink+hudi_程序员_爱好编程进阶_InfoQ写作社区