FFA 2023 专场解读：AI 特征工程、数据集成

2023-12-04
浙江
本文字数：3417 字
阅读完需：约 11 分钟

今年 Flink Forward Asia（以下简称 FFA ）重新回归线下，将于 12 月 8 - 9 日在北京望京凯悦酒店举办。Flink Forward Asia 2023 大会议程已正式上线！

Flink Forward 是由 Apache 官方授权的 Apache Flink 社区官方技术大会，作为最受 Apache Flink 社区开发者期盼的年度峰会之一，FFA 2023 将持续集结行业最佳实践以及 Flink 最新技术动态，是中国 Flink 开发者和使用者最不可错过的的技术盛宴。

AI 特征工程

AI 特征工程专场将由来自蚂蚁金服、数澜科技、字节跳动、阿里云智能、B 站的技术专家带来基于 Flink 的实时特征工程平台的建设思路与深度应用实践。

Flink 在蚂蚁实时特征平台的深度应用

赵亮星云｜蚂蚁金服 AI-Infra 团队高级技术专家，蚂蚁金服特征平台技术负责人

议题介绍：

蚂蚁特征平台是一个多计算模式融合的、离在线一致的高性能 AI 数据处理框架，能够满足“AI 训练和推理”对特征低延迟产出、高并发访问及离在线一致的数据诉求。平台实时计算体系以 Flink 为核心引擎搭建，支持大规模秒级实时计算、毫秒级高性能特征查询及百亿级数据量的仿真回溯计算。蚂蚁特征平台服务于微贷、搜推、保险、财富、网商、芝麻、国际风控等众多业务方，集群规模 20Wcore，实时计算 TPS 和特征 serving 服务 QPS 百万+。

一、蚂蚁特征平台 UFE 架构(universal-featureEngine-based-architecture)及规模介绍:

1.1 蚂蚁特征平台演进史

1.2 蚂蚁特征平台基于 Flink 搭建的 SQLBased 平台架构及设计思考(包含特征 serving\实时计算和冷启动\大规模 time-travel 计算）

二、蚂蚁特征平台主要业务场景对 Flink 的深度应用

2.1 风控、消金、搜推等主要场景对实时特征的需求差异和技术挑战

2.2 蚂蚁特征平台如何基于 Flink 解决各场景关于实时计算的技术挑战

三、基于 Flink 的流批协同计算引擎 skyline 的架构及计算优化

3.1 流批协同计算引擎 skyline 的主要架构设计和背后思考

3.2 skyline 在计算归一化、实时计算计算性能优化、流批协同、大规模特征仿真等方面的主要工作

四、高性能特征 serving 引擎介绍

4.1 高性能 serving 引擎架构及设计思路

4.2 高性能 serving 引擎面向百万级 QPS 的性能优化

五、未来展望：Flink 智能化运维

走进未来: 大模型助力 Flink 智能化

白松｜数澜科技联合创始人、研发中心副总经理

议题介绍：

大模型助力未来的技术演进，因此希望借助大模型的能力来提升 Flink 的智能化水平。在本次分享中，将介绍如何运用大语言模型，给 Flink 带来一些新的功能体验。

一、大模型开发框架 Langchain(Java 版)介绍

二、Flink+Langchain 的设计思路

三、Flink 基于 LLM Chain 的 Text-to-Table 方案

四、Flink 基于 LLM Chain 的 Generate UDF 方案

五、Flink 基于 LLM Agent 的 Text-to-SQL 方案

六、Flink 基于 LLM Agent 的 Analyze Lineage 方案

七、未来规划

字节推荐面向下一代特征工程架构演进之路

刘首维｜字节跳动推荐架构工程师

刘方奇｜字节跳动推荐架构工程师

议题介绍：

字节跳动在过去几年的发展中推荐系统基于 Flink、Spark、Hudi 等大数据组件打造了支持万亿数据吞吐的特征生产系统，随着直播、电商、生活服务等业务高速发展和算法工程师规模的扩大，对推荐系统中的离线组件在易用性、成本、架构方面提出了进一步挑战，我们也在此背景下，提出了新一代特征生产和入湖链路，其中包括引入推荐系统 Planner、面向用户的 Python SDK 以及 Flink 流批一体的样本入湖等功能，在开发效率、成本和性能上都有显著收益：其中原始特征生产的开发上线周期从 N 天至 1 周可以降低到小时级，推荐样本入湖的计算性能也提升到了原来的 3 倍+。

一、背景

二、新一代推荐特征生产范式

三、基于 Flink 的流批一体推荐样本入湖

四、未来和展望

Flink ML 的新特性解析与应用

赵伟波｜阿里云智能算法专家

议题介绍：

一、在线学习设计及应用

二、在线推理设计及应用

三、特征工程算法及应用

四、未来规划

Flink 流批一体在模型特征场景的使用

张杨｜bilibili 资深开发工程师

议题介绍：

在 ai 的场景下,流和批两种计算模式天然不可或缺。模型的冷启动依赖批对历史数据的计算,而模型的实时更新则依赖数据的流式计算。在调研到上线这样一个很自然的模型开发流程中,大部分同学都是使用了 spark 和 Flink 两种引擎来完成。这导致日常工作中,相当一部分时间都是用在两种引擎的逻辑对齐和数据对齐上，很多模型调研和上线效果预期不一致也与此相关。因此我们尝试在 Flink 这一种引擎上，完成流批这两种模式的计算。我们适配了所有 Batch 入口支持 Flink 任务提交,语法层尽量兼容用户传统用法,性能上做了算子和调度器优化,使用 Celeborn 支持超大规模 shuffle 和云原生,资源上 on K8S 并与 streaming 混部提升整体资源使用。尽量给用户提供一致的体验,并且解决掉传统的一致性问题,最终在模型特征场景下取得了不错的效果。

数据集成

数据集成专场邀请了阿里云智能、飞轮科技、Oceanbase、B 站的技术专家分享基于 Flink 的数据集成系统探索与实践。

首次解读端到端实时数据集成框架 Flink CDC 3.0

徐榜江｜阿里云智能 Flink 数据通道负责人，Flink CDC 开源社区负责人，Flink PMC Member & Committer

议题介绍：

Flink CDC 是实时数据集成框架的开源代表，具有全增量一体化、无锁读取、并发读取、分布式架构等技术优势。Flink CDC 早期一直只支持作为数据源，在最新的 Flink CDC 3.0 版本，社区将其升级到支持端到端的数据集成，支持一键整库同步、schema evolution 等诸多核心特性。

Flink 到 Doris 实时写入实践：基于 Flink CDC 构建更实时高效的数据集成链路

吴迪｜飞轮科技生态研发工程师、Apache Doris Committer、Flink CDC Contributor

议题介绍：

在实时数据仓库架构的构建过程中，有越来越多的企业将 Flink 和 Doris 作为其核心数据处理与分析引擎，因此基于 Flink 与 Doris 的集成以及数据读写优化方案至关重要。在最新版本 Connector 中我们集成了 Flink CDC，实现了更实时高效的数据集成，在本次分享中我们将会介绍背后的技术实现。

一、介绍 ApacheDoris 以及 Flink Doris Connector 的使用场景

二、Flink Doris Connector 的读取与写入

三、Flink Doris Connector 与 Flink CDC 整库同步方案

四、未来规划

Flink CDC 在阿里云 DataWorks 数据集成应用实践

王明亚｜阿里云智能 DataWorks 数据集成团队技术专家，DataX Maintainer & Canal Contributor

议题介绍：

本次分享将介绍数据集成基于 Flink CDC 新版同步引擎重构及产品化落地实践分享，分享主要围绕如下几个方面：

一、阿里云 DataWorks 数据集成发展历史；

二、基于 Flink CDC 数据集成新版引擎架构和原理；

三、新版引擎在 DataWorks 数据集成产品化落地案例分享；

四、未来规划。

如何基于 Flink 实现 HBase 高效数据迁移

武乃辉｜OceanBase 技术专家

议题介绍：

众所周知, HBase 在大数据领域被广泛使用, 发展十余多年, 往往存储了海量的数据, 因此如何将 HBase 海量数据更高效更快的迁移并同步到更多的存储系统, 是一个用户非常关心的问题. 过去 HBase 的导入导出深度使用旁路导入导出, 本文将分享如何深入融合 Flink 和 HBase 旁路导入导出, 并高效支持 HBase 的增量同步, 只使用了少量代码就实现了迁移任务分布式执行的能力；最大限度的提高了机器资源的利用率和极大的提高了迁移效率. 当前基于 OceanBase 迁移服务来实现整套解决方案. 并计划在未来的半年内将整套方案移植到 Flink CDC HBase Connector 当中。

一、业务背景介绍 : OceanBase 迁移服务简介、HBase 迁移原理介绍

二、技术方案选型 : OceanBase 迁移服务在迁移海量数据方面存在的问题, HBase 数据迁移基于 Flink 中实现方案和其他方案的比较。

三、基于 Flink 的数据迁移方案介绍

Flink 全量数据迁移方案-HBase 全量数据迁移 OBKV
Flink 增量数据迁移方案-HBase 增量数据迁移 OBKV

四、未来展望：HBase 迁移能力提交 Flink CDC、基于 Flink 实现更多迁移链路、Flink 在数据校验的应用

Flink CDC + Hudi 在 B 站的落地与实践

魏泽丰｜bilibili 基础架构部高级开发工程师

议题介绍：

本次演讲主要介绍 Flink CDC + Hudi 在 B 站的落地实践及经验分享：

一、B 站 MySQL 数据入仓发展历史及痛点。

二、Flink CDC + Hudi 整体架构。

三、Flink CDC Connector 底层优化。

四、Hudi 底层基建增强。

五、Flink CDC 产品化落地。

活动推荐

阿里云基于 Apache Flink 构建的企业级产品-实时计算 Flink 版现开启活动：0 元试用实时计算 Flink 版（5000CU*小时，3 个月内）了解活动详情：https://free.aliyun.com/?pipCode=sc

发布于: 刚刚阅读数: 4

Apache Flink

关注

Apache Flink 中文社区 2020-04-29 加入

官方微信号：Ververica2019 微信公众号：Apache Flink 微信视频号：ApacheFlink Apache Flink 学习网站：https://flink-learning.org.cn/ Apache Flink 官方帐号，Flink PMC 维护

发布

暂无评论

创作场景

FFA 2023 专场解读：AI 特征工程、数据集成

AI 特征工程

Flink 在蚂蚁实时特征平台的深度应用

走进未来: 大模型助力 Flink 智能化

字节推荐面向下一代特征工程架构演进之路

Flink ML 的新特性解析与应用

Flink 流批一体在模型特征场景的使用

数据集成

首次解读端到端实时数据集成框架 Flink CDC 3.0

Flink 到 Doris 实时写入实践：基于 Flink CDC 构建更实时高效的数据集成链路

Flink CDC 在阿里云 DataWorks 数据集成应用实践

如何基于 Flink 实现 HBase 高效数据迁移

Flink CDC + Hudi 在 B 站的落地与实践

Apache Flink

评论