FFA 2023 专场解读:流批一体 & 平台建设 & 云原生
今年 Flink Forward Asia(以下简称 FFA ) 重新回归线下,将于 12 月 8 - 9 日在北京望京凯悦酒店举办。Flink Forward Asia 2023 大会议程已正式上线!
Flink Forward 是由 Apache 官方授权的 Apache Flink 社区官方技术大会,作为最受 Apache Flink 社区开发者期盼的年度峰会之一,FFA 2023 将持续集结行业最佳实践以及 Flink 最新技术动态,是中国 Flink 开发者和使用者最不可错过的的技术盛宴。
流批一体
流批一体专场由来自阿里云智能、小红书、字节跳动、小米等企业的技术专家为你呈现流批一体的大规模应用实践案例,了解业务在数仓建设过程的痛点与思考。另有来自阿里云智能高级技术专家将分享流批融合的理念与优势,结合全增量一体数据处理场景介绍流批融合的技术挑战与设计方案,以及 Flink 社区在这方面的最新进展与未来规划。
Apache Flink:流批融合计算引擎
宋辛童|阿里云智能高级技术专家,Flink 分布式执行团队负责人,Apache Flink PMC
苏轩楠|阿里云智能高级开发工程师,Apache Flink Contributor
议题介绍:
长久以来,流处理和批处理一直都是大规模数据处理技术的两大门类。随着流批一体理念与技术的发展,Apache Flink 以单一引擎兼具流与批的处理能力。这使得流、批处理之间不再泾渭分明,一种全新的流批融合数据处理模式应运而生。在流批融合处理模式下,Flink 不再为作业指定流、批执行模式,而是根据数据的时效性自适应地选择、切换执行模式,以达到降低延迟、提高吞吐的效果。 本次演讲,我们将分享流批融合的理念与优势,结合全增量一体数据处理场景介绍流批融合的技术挑战与设计方案,以及 Flink 社区在这方面的最新进展与未来规划。
小红书在流批一体与近实时数仓上的实践探索之路
唐 云|小红书实时计算引擎团队负责人,Apache Flink committer
议题介绍:
一、Flink 作为流批一体统一接口的引擎(Flink SQL 的统一以及 DataStream API 的统一),小红书引入 Flink 在搜索推荐相关索引数据生成上,利用一套接口完成流式和批示加工的统一,大大提升了开发效率。在 Flink Batch 上积极升级版本 1.17,同时引入 Apache Celeborn,并解决了 Celeborn 在 K8S 环境部署的方式和稳定性问题,提升了 Flink Batch 的性能、稳定性与效能。
二、与小红书数据湖团队合作,利用 Flink CDC 的能力,将 ODS 层实时化,从而提升离线数仓的时效性。
三、在离线数仓的 DWD 层进一步推进近实时化,探索了数据湖 lookup join、left join、partial update 等多种方式加工的差异与特点,实现 mini-Batch join/agg 等机制来尽量降低成本,实现了 Checkpoint 的 state schema evolution 来优化数据的可迁移性,并从理论上分析了离线数仓近实时化背后的核心技术难点问题,以及根据探索经验看好基于 IVM 方式进行增量数仓加工的方式,来打破 lambda 架构,真正统一流批处理架构。
流批一体在字节跳动的大规模落地实践
苏德伟|字节跳动基础架构工程师
议题介绍:
Flink 是事实上的流计算标准,但在批计算场景的应用并不广泛。随着 Flink 引擎流批一体能力的完善,在字节跳动内部我们将离线数据同步场景下的 2.2w+ Spark SQL 作业迁移至 Flink Batch SQL,以推进流批一体的落地。Spark SQL 作业具有丰富的 Pattern,我们通过解决大量 Spark SQL 的兼容性问题,并进行数据准确性校验以及自动化迁移,将每日例行作业平滑迁移至 Flink Batch 并在线上稳定运行。本次分享将主要从以下五个部分介绍流批一体在字节跳动的大规模落地实践。
一、流批一体在字节跳动的落地和挑战
二、Spark SQL 兼容度提升
三、Flink Batch 性能优化
四、迁移流程和工具支持
五、收益与未来规划
小米基于 Flink 流批一体数仓实践
吴俊省|小米软件研发工程师
议题介绍:
本次分享将聚焦小米电视与视频业务的流批一体数仓建设,结合具体的业务情况,分享小米电视与视频业务在流批一体数仓领域的探索,打造高效、稳定的数据基座。其内容主要分 4 部分:
一、小米电视与视频业务数仓演变
二、流批一体数仓构建过程以及建设过程中遇到的问题和思考
三、流批一体数仓应用场景
四、总结与展望
字节全增量一体化实时数据建设方案
秦冰伦|字节跳动实时数据工程师
刘 想|字节跳动实时数据工程师
议题介绍:
字节的业务包含很多全增量一体化数据场景,典型场景如用户画像、风控、房产等,运营既需要过去长时间范围的数据来挖掘潜在的价值,也对数据新鲜度有很高的诉求,因此实时数据的全增量一体化价值很大。本次分享主要介绍全增量一体化流式计算建设过程中面临的挑战和解决方案:
一、全增量一体化实时数据价值与挑战
二、存储建设
三、计算建设
四、未来规划和展望
平台建设
平台建设专场由来自阿里云智能、网易、小米、SelectDB 的技术专家分享基于 Apache Flink 的实时计算平台演进与实践。
阿里云实时计算 Flink 的产品化思考与实践
黄鹏程|阿里云智能高级产品专家
陈婧敏|Apache Flink Committer 阿里云智能技术专家
议题介绍:
一、阿里云实时计算 Flink 产品简介
二、云上实时计算功能与场景的思考
三、产品化实践
四、展望
阿里巴巴瓴羊基于 Flink 实时计算的优化和实践
王柳焮|阿里云智能集团瓴羊技术专家
议题介绍:
分享介绍阿里巴巴瓴羊多年来基于 Flink 做实时计算的优化和实践。瓴羊 Dataphin 平台实时计算一直以来支撑着阿里集团内各 BU 业务,如商家端的生意参谋、媒体端的双十一媒体大屏、小二端的营销活动分析等等;后上云对外输出,为企业赋能、推进企业的数字化进程。主要大纲如下:
一、阿里巴巴瓴羊基于 Flink 实时计算的平台演进
二、Flink 能力优化与建设
三、基于 Flink 的最佳实践
四、未来规划
网易互娱基于 Flink 生态的一站式实时数据集市
林佳|网易游戏资深开发工程师,Apache Flink Contributor,Flink CDC Contributor
议题介绍:
随着 Flink 在互娱内部使用的稳步增加,越来越多的业务从传统架构向实时化迁移。以极其重要的计费业务为例,在过去一年便完成了全部近千个离线 Spark 计算任务的 Flink 批作业化进程。如何管理数以千计的实时流作业及其上下游的关联数据资产、如何让数据使用者方便地查询、流转、计算这些数据,而又不复杂化整个技术栈,便是我们构建一站式数据集市这一产品的原始动机。
本次分享将会从数据中心的分析师们的真实需求开始,从用户使用和产品设计的角度上,展示我们如何将在 Flink 上沉淀的技术成果与用户的使用方式相结合,创造一个他们爱用的一站式实时数据集市。分享目录:
从数据分析师的一个需求说起
Flink 基础设施的建设
一站式实时数据集市
实现可靠而高能效的实时数据价值
小米 Flink 实时计算平台的建设实践
陈子豪|小米软件研发工程师,Apache Flink Contributor
议题介绍:
本次分享将聚焦实时计算平台的建设,结合小米自身的业务实践经验,分享小米在实时计算领域的探索与建设,打造具备易用、低成本、质量保障等特性的统一实时计算平台。主要内容:
一、小米实时计算平台介绍
二、平台易用性能力建设
三、成本治理与质量加固
四、总结与展望
Apache Flink 在 StreamPark 上的极速体验和平台实践
王华杰|SelectDB 资深架构师,Apache StreamPark PPMC 成员
议题介绍:
Apache Flink 已经是实时计算的事实标准, 被大规模使用, 但由于其专业性, 仍然面临着上手使用门槛较高的问题, 尤其在实时作业部署管理运维方面, Flink 社区并没有很好的解决方案, 这是企业在实践中会普遍遇到的难题。本次议题, 我们将讨论 StreamPark 是如何思考和解决这一问题的, 如何无缝支持 Flink 各生态组件做到作业一站式的"咖啡管理", 接着我们会介绍各个企业是如何使用 StremaPark 以及一些最佳实践, 最后总结 StreamPark 为什么让流处理更简单。
云原生
云原生专场邀请了阿里云智能、OPPO、货拉拉、益世界等技术专家分享 Flink 多云架构应用与实践。
Serverless Flink 多云架构实践
王阳|阿里云智能高级研发专家,开源大数据 Serverless 平台团队负责人,Apache Flink PMC
议题介绍:
一、Serverless Flink 架构
二、核心技术(租户 K8S 管控面隔离、租户计算资源隔离、租户网络隔离与打通)
三、多云部署(AWS、AZure、GCP)
四、未来展望(BYOC 模式)
Apache Celeborn: 帮助 Flink 成为更好的流批一体引擎
周克勇|阿里云智能 EMR Spark 引擎负责人,Apache Celeborn(Incubating) PPMC 成员
议题介绍:
一、Flink Batch 在 Shuffle 上面临的挑战
二、Apache Celeborn 如何提升 Flink Batch 的稳定性和性能
三、Apache Celeborn 社区的今天和明天
OPPO 基于 Flink 的云原生实时计算平台的演进
蒋龙|OPPO 大数据高级研发,Apache Flink Contributor
议题介绍:
一、OPPO 实时计算平台的现状、架构和瓶颈点:详细介绍 OPPO 实时计算平台的当前状态,包括平台的架构设计和关键组件的功能。同时,分析当前平台所面临的瓶颈点,如数据处理性能、资源利用率等,并提出解决方案。
二、上云的核心技术和改进点:探讨 OPPO 在将实时计算平台上云过程中所采用的核心技术和改进点。包括实施方案、对 Flink 和 Kubernetes 资源管理和调度的改造,平滑的弹性伸缩模式(伸缩基于 CPU、内存、LAG 或者 DS2 算法),插件化的历史服务和基于 ChatGPT 的异常诊断,以及基于预编译的部署加速手段等。
三、上云的收益和问题解决方案:分享 OPPO 将实时计算平台上云后所获得的收益,并介绍遇到的问题和相应的解决方案。包括在离线实时混部、削峰填谷等方面的努力,以及解决常见问题的方法,如 TM 心跳超时、单分区延时、自动节点拉黑、资源互斥等。
四、运维测的实时诊断:介绍 OPPO 实时计算平台的运维测实时诊断功能,以及如何利用该功能快速定位和处理问题。同时,分享该功能的开源情况,以便其他用户也能受益。
五、未来展望:展望 OPPO 实时计算平台的未来发展,强调平台将继续朝着更加稳定和智能的方向演进。探讨可能的演进方向,如性能优化、智能调度、自动化运维等,以满足不断增长的业务需求。
货拉拉 Flink 云原生的应用与实践
王世涛|货拉拉大数据实时离线平台负责人
陈海晴|货拉拉大数据海外实时平台负责人
议题介绍:
一、Flink 如何云原生化
1.1 使用和优化 K8S operator 实现 Flink on K8S
1.2 K8S 集群/K8S 任务的指标和日志收集,以及监控+调度适配优化
1.3 在任务层面和集群层面自动快速的从 YARN 切换到 K8S
二、Flink 云原生下如何存算分离
2.1 实现 Redis/HBase 模式下的 remote-statebackend
2.2 remote-statebackend 适配优化,不限于多层缓存优化,不同 workload 的下读写性能优化,remote 存储设计
2.3 实现 Redis/HBase statebackend 模式下的转换,以及和原生 statebackend 模式下的转换
三、Flink 云原生收益
3.1 成本和稳定性收益
3.2 remote-statebackend 的应用场景适配 ,不限于 state 可查询应用场景,state 可共享应用场景,state 可编辑应用场景
Flink Kubernetes Operator: Flink 在云原生的下一站
陈政羽|益世界游戏高级大数据开发工程师,Apache Flink/StreamPark Contributor
议题介绍:
Flink Kubernetes Operator 经过 1 年多的发展,目前已经具备基础云原生和自动化部署 Flink 功能。本次演讲将带各位跨入云原生的 Flink 时代,描述 Flink Kubernetes Operator 在云原生工作,包括 Flink 作业部署追踪、自动调优、可观测性等多个角度阐述当前 Flink 在云原生发展一些工作,以及 Operator 正在推进工作和未来 Flink 云原生期望的一些功能。
评论