写点什么

ApacheCon Asia 2022 启动!7 场阿里云大数据 +AI 议题分享等你围观

  • 2022 年 7 月 28 日
  • 本文字数:2438 字

    阅读完需:约 8 分钟

ApacheCon Asia 2022 强势来袭,ApacheCon 是 Apache 软件基金会(ASF)的官方全球系列大会,作为久负盛名的开源盛宴,是开源界最具期待的大会之一。7 月 29 日至 31 日,针对亚太地区的开发者特举行 ApacheCon Asia 在线会议,足不出户,大家即可在线上参加这场 Apache 技术盛宴。


阿里云大数据 &AI 相关议程如下:


人工智能 / 机器学习分论坛

实时深度学习训练 PAI-ODL

本次演讲将会介绍 ODL 场景下的一系列的关键技术,包括:超大稀疏模型训练/预测、秒级的模型热更新、实时训练模型校正、模型回退及样本回放、样本修复、实时训练弹性资源调度等等。


刘童璇: 阿里云智能计算平台事业部 PAI, 高级技术专家, 长期从事机器学习平台/深度学习引擎的研发,负责大规模稀疏模型的训练和预测优化,长期支持阿里搜索、推荐、广告等核心业务,负责阿里大规模稀疏模型训练框架 DeepRec、ODL。

Flink ML: 基于 Apache Flink 的实时机器学习

本次演讲主要分享在 Apache Flink 机器学习库 (Flink ML) 中已经完成的工作,近期的发展计划,以及 Flink ML 的发展愿景。


高赟: 阿里巴巴, 技术专家, 阿里巴巴技术专家,Apache Flink PMC/committer.

高赟博士毕业于中国科学院大学,加入阿里巴巴实时计算团队,主要从事 Flink Runtime / DataStream 方向的开发与改进。


张智鹏: 阿里巴巴, 高级算法工程师, Apache Flink committer.

张智鹏博士毕业于北京大学,主要从事分布式机器学习系统/算法相关的研究。毕业后加入阿里巴巴机器学习团队,主要从事 Flink 相关的机器学习开发与改进。

BladeDISC: 支持动态 Shape 的深度学习编译器实践

本次演讲主要介绍阿里云 PAI 团队以 BladeDISC 为中心,在动态 Shape 编译器上的工作,主要包括:BladeDISC 的主要架构、动态 Shape 带来的挑战、大粒度算子融合、计算密集型算子、以及 BladeDISC 在阿里云业务中的应用等。


邱侠斐: 阿里云计算有限公司, 高级技术专家, 阿里云 PAI 团队是负责阿里集团内部和外部 AI 基础设施的团队,模型系统优化一直是团队的重点技术方向之一。编译器作为系统优化的重要手段,经过内部多年的沉淀打磨,目前已经在 GitHub 开源(https://github.com/alibaba/BladeDISC)。


大数据分论坛

Flink Table Store:流式数仓架构与场景

Flink Table Store 是一个为流式数仓打造的流批统一的存储,用于在 Flink 中为流批处理建立动态表,支持实时流消费和实时 OLAP 查询。Flink Table Store 已经发布了第一个前瞻版本,但是缺少了生态和稳定性的不少工作。目前我们已经开始研发第二个版本,我们希望第二个版本能够带来更多的生产能力,通过此次分享你可以了解到我们通过加强哪些方面来提高存储的可靠性和生态。另外,我也会分享后续的架构,Service 版本,它如何达成统一的流仓的存储,它又解锁了哪些场景。


李劲松: 阿里巴巴, 技术专家, 目前就职于阿里云开源大数据,长期从事分布式流 / 批处理系统领域的工作,也对数据湖和 OLAP MPP 有一些研究。是 Apache Beam / Flink / Iceberg 的 Committer,对底层调度、通信机制、用户模型、SQL 流批计算、存储有一定了解。目前专注于 Flink Table Store 项目的开发,希望给 Flink 带来一个最适合的存储。

开源大数据 Studio: Dolphinscheduler + Notebook

对于大数据工程师来说,大数据作业的开发和调度通常是在不同的环境中进行的。需要在 IDE 中完成作业开发、调试后,再将代码 copy paste 或打包到调度工具中进行调度。一方面影响了开发效率,另一方面由于环境的差异导致调度时可能产生难以预知的问题。本演讲将介绍并演示如何采用开源的 Apache

Dolphinscheduler 调度工具和 Apache Zeppelin 以及 Jupyter 两种 Notebook 组成大数据开发 Studio。数据平台团队适配好相关环境后,大数据/AI 工程师在线交互式开发/debug,并进行一键调度,无需再花费时间处理由于环境不一致导致的适配问题,极大地提高了大数据作业到开发效率和体验。演讲中所涉及的组件间整合代码已完全开源,欢迎下载体验。


高楚枫: 阿里云 EMR 数据开发团队, 基础平台开发工程师, 毕业于上海交通大学,Purdue University。ex-SDE@Amazon, Seattle。现任职于阿里云 EMR 数据开发团队。Apache Dolphinscheduler, Airflow, Zeppelin Contributor。对新型大数据开发平台感兴趣。


流处理分论坛

基于 Flink CDC 和 Hudi 高效地构建实时数据湖

数据库中的业务数据是最有价值的数据之一,如何有效地将这些数据高效地同步到数据湖中是一个非常有价值的主题。CDC(Change Data Capture)是用于从数据库中捕获变更的技术,Flink CDC 是实时数据集成框架的开源代表,具有全增量一体化、无锁读取、并发读取、分布式架构等技术优势,在开源社区中非常受欢迎。除了具备实时入湖入仓能力,Flink CDC 还支持强大的数据加工能力,可以通过 SQL 对数据库数据做实时关联、聚合、打宽等, 配合 Flink 丰富的下游生态可以将加工后的数据方便地写入 Kafka、Hudi、Iceberg 、Doris 等下游。


在本次分享中,首先会分享 Flink CDC 的无锁算法、并行读取、断点续传和分布式架构等核心设计和实现,并结合具体的业务场景,分享 Flink CDC 在不同场景中的应用,然后配合 demo 详细介绍如何基于 Flink CDC 和 Hudi 高效地完成实时数据湖构建。


徐榜江: 阿里云, 高级研发工程师, Apache Flink Committer & Flink CDC Maintainer, 专注在 Flink SQL,Flink CDC,数据集成领域,曾在国内外多次演讲和分享 Apache Flink, Flink CDC 相关技术。

基于数据湖格式构建流式增量数仓——CDC 

随着数据湖格式的兴起和应用,如何在实际生产环境中更好的与现有大数据生态结合,解决当前大数据/数仓架构下的难点,是需要持续去探索和丰富的。该 topic 探讨在经典的数仓 CDC 场景下,如何将 Apache Hudi 和 Apache Spark 结合,实现 CDC 解决方案,来构建完整的流式增量数仓。


毕岩: 阿里云智能-计算平台事业部-开源大数据平台, 技术专家, 就职于阿里云计算平台开源大数据部门,专注于 Apache Spark、Hudi 等开源项目,及与阿里云 EMR 和 DLF 产品的集成。


想要了解大会全部议程,请点击:https://apachecon.com/acasia2022/zh/tracks.html

用户头像

还未添加个人签名 2020.10.15 加入

分享阿里云计算平台的大数据和AI方向的技术创新和趋势、实战案例、经验总结。

评论

发布
暂无评论
ApacheCon Asia 2022 启动!7场阿里云大数据+AI议题分享等你围观_人工智能_阿里云大数据AI技术_InfoQ写作社区