云栖实录 | MaxCompute 迈向下一代的智能云数仓
本文根据 2024 云栖大会实录整理而成,演讲信息如下:
演讲人:
张治国 | 阿里云智能集团研究员、阿里云 MaxCompute 负责人
谢德军|阿里云智能集团资深技术专家
于得水|阿里云智能集团资深技术专家
谌鹏飞|绝味集团首席数智增长官
活动:
2024 云栖大会 - 大数据:商用大数据计算与分析平台专场
2024 年云栖大会上,阿里云核心自研云原生智能数据仓库产品 MaxCompute,在经过一年的深度打磨后,推出了其迈向下一代智能云数据仓的系列主题分享。此次产品发布,充分展示 MaxCompute 产品领先行业的云数据产品发展理念与核心优势。
一、MaxCompute:迈向下一代智能云数仓
阿里云智能集团研究员,MaxCompute 负责人张治国对新一代 MaxCompute 智能云数仓进行全面与深度的产品技术阐述与解读。从数仓的经典定义四大维度 Value / Variety / Velocity / Volume 切入,分享了 MaxCompute 在云数据仓库领域上围绕上述四个维度重新构建的全新技术创新与产品突破。
Value - Data+AI 一体化:MaxFrame + AI Function + ObjectTable 构建 Data+AI ⼀体化;
Variety - 湖仓一体 2.0:汇聚高价值数据,在湖仓融合架构之上的多模态结构化/半结构化/非结构化数据的高效处理与分析;
Velocity - 近实时数仓:基于 DeltaTable、增量计算 &增量物化视图、MCQA2.0 查询加速引擎三层架构实现从离线到近实时架构全面升级;
Volume - 企业级能力:在安全稳定方面,同城 &跨 Region 灾备、数据脱敏。为客户数据安全保驾护航。在可观测性与 AI 智能化上,提供 IntelligentTuning 与智能物化视图创新能力。
MaxCompute 通过经典数据仓库能力定义与云数据架构的深刻理解,构建出面向下一代智能云数仓。其四个核心产品理念包括但不限于:Data+AI - 数据价值的不断深化, 开放湖仓架构衍生出的多样数据融合处理与分析,近实时数仓-从离线到近实时的系统性能优化,企业级服务能力- Serverless 智能云数仓的企业终极差异优势。
1. Data+AI 价值化
MaxFrame + AI Function + ObjectTable 构建 Data+AI ⼀体化
随着 AI 应用浪潮的逐步深入,MaxCompute 为用户提供了 Data + AI 一体化开发体验。
MaxFrame 可以基于 External Project + Object Table 的方案对 AI 开发中使用的多模态非结构化数据统一管理,通过 Notebook 的交互式数据处理和 Python SDK 统一开发体验,一份 code 同时包含数据处理及模型训练、推理。MaxFrame 自动分布式 python 数据处理框架,兼容 Pandas DataFrame,内置可扩展 AI function,使用通义大模型能力在分布式数据处理中进行智能分析和内容生成,支持灵活易用的 Python 依赖打包及镜像管理能力。为企业构建 AI 时代的大数据基础设施。
阿里云资深技术专家于得水表示,MaxFrame 是由阿里云自研的分布式计算框架,支持 Python 编程接口,并直接使用 MaxCompute 的计算资源和数据接口,MaxFrame 不仅兼容 Pandas、Xgboost 接口,还自动实现分布式处理,使得 Python 开发者可以更加高效、便捷地在 MaxCompute 上完成大规模数据处理及 ML/AI 数据预处理等工作。
MaxFrame 已于 9 月 27 日商业化发布,欢迎感兴趣的朋友测试。
2. 开放多样化
湖仓一体 2.0 & OpenLake 协同,汇聚高价值数据。湖仓融合计算性能已达内表性能的 70%
湖仓一体 2.0 汇聚高价值数据:通过三层模式更广泛的兼容数据源层析模式;通过自动打通网络、自动映射数据源元数据和数据存储服务、兼容开源文件格式等方法,直接挂载外部数据源数据对象,省去建表和更新;将内表性能优化逐步带到湖上,目前湖上计算性能已达内表性能的 70%;融合数据湖之外,MaxCompute 也正在逐步对接 Hadoop 实例、MPP 数据库、RDS 数据库等多种联邦数据源;在读取外部数据的计算价格上也极具竞争力。
湖仓一体 2.0 已于 9 月进入商业化公测阶段,欢迎感兴趣的朋友试用体验。
随着基于开放湖仓架构的应用,越来越多面向非结构化数据的需求变得越发重要。建立在开放架构之上 MaxCompute 4.0 也迅速推出具备在湖仓之上多模态非结构数据的数据分析与应用的产品特性 ObjectTable。其功能特性是以结构表的方式描述非结构化数据,简化用户对复杂非结构化数据的使用门槛,并提供完备且高效的数据处理分析能力。
3. 极致性能化
MaxCompute 近实时数仓升级,MCQA2.0 查询加速全新升级,28 亿行数据查询 1 秒返回
云数仓发展到当前阶段,越来越多的客户对延时敏感的近实时链路有广泛且强烈需求。MaxCompute 通过近实时数仓架构不断迭代升级。实现支持实时数据分钟级导入,分析秒级返回。全新推出的 Delta Table 增量表格式。其对上游数据对接方式灵活,支持 Flink Streaming Tunnel 实时写入,支持 FlinkCDC 数据同步,及 DataWorks 实时数据集成等方式。Delta Table 具有全量增量数据统一处理与管理能力,依赖 Primary Key 主键设置,在实现 Upsert 语义的同时又有很好的读写性能, StorageService 管理服务在后台能够提供自动化的增量数据 AutoClustering / AutoCompaction / AutoClean 等操作,可有效降低存储成本,优化对增量数据处理效率。基于 Delta Table 格式之上的异步构建 CDC 能力,增量物化视图(增量 MV )新特性能够提供增量/全量刷新模式。增量物化视图(增量 MV )同时支持多层 Pipeline 构建,级联查询,支持分区增量 MV 等功能,数据新鲜度提升同时,极大简化增量计算 Pipeline 构建流程。
而 MCQA2.0 查询加速引擎全新升级,在基于类似 Virtual Warehouse 强资源隔离模式创建,全链路 Cache 优化,在兼顾大规模数据处理 Throughput 的前提下,扩展支持多种基于 Latency 的 E2E 性能优化。通过 MCQA2.0 将 MaxCompute 的性能提升新的高度。阿里云智能集团资深技术专家谢德军表示,MCQA2.0 查询性能在标准 Benchmark 中表现非常出色,MCQA2.0 性能是 MCQA1.0 1.9X,开源版本 Spark 2.7X。28 亿行数据查询 1 秒返回。
同时,MCQA2.0 查询加速引擎在 TPC-DS 测试中,面对复杂 Query 查询与大 Query 多并发提交等复杂场景下其查询表现上无论是性能还是稳定性都更具优势。使用 MaxCompute 512CU 对 TPC-DS 的 1TB 数据量进行测试,其 Query 平均 E2E 所需时间为 4.7s。
近实时数仓系列特性 ( DeltaTable/ 增量物化视图/ MCQA2.0) ,已在云栖大会期间进入面向企业用户的邀测阶段,欢迎感兴趣的朋友试用体验。
4. 企业级服务化
安全稳定,提供数据的保密性、完整性、可用性保障。支持 AI 智能化在企业级场景下应用等。
MaxCompute 数据脱敏在最靠近数据的从存储中读取的环节实现,具备高性能和高安全性,确保数据在查询、下载、关联、UDF 计算时已经处于脱敏状态,避免敏感数据泄露风险。
脱敏策略支持掩码、散列、字符替换、数值取整、日期取整等脱敏策略,支持与数据保护伞的数据分类分级功能联动,满足用户对身份信息、银行卡号、地址、电话等数据的脱敏需求。
MaxCompute 以数据保护三要素保密性、完整性和可用性为基础,构建全面的数据安全保护屏障,并提供完善的数据访问控制能力和安全可信的计算环境。通过集群高可用和容灾方案确保业务的连续性,系统详细记录用户操作日志和任务运行日志,供事中运维监测和事后安全审计。MaxCompute 服务建立在阿里云 IaaS 服务之上,利用云基础设施的安全能力,同时能够与云平台相关的安全产品进行联动,如 RAM 访问控制、DataWorks 安全中心、数据保护伞,以实现更加丰富的安全管控场景。
在企业级服务方面,MaxCompute 以其多年在阿里巴巴体系系统优化经验,发布智能数仓产品新能力。其最新发布的智能物化视图 与 Intelligent Tuning 新特性,可帮助用户智能简化查询与系统运维工作。智能物化视图通过智能分析周期性 Pipeline 作业等方式,实现物化视图推荐,简化物化视图生成方式,明显提升查询分析效率。而 Intelligent Tuning 特性更多的是帮助用户自助实现数仓运维优化管理的能力。
5. 总结
毫无疑问,在 2024 年云栖大会上 MaxCompute 所展示的全新四大产品理念与多项技术创新突破,是 MaxCompute4.0 发布以来的产品能力的一次整体展示,是技术产品阶段沉淀后的厚积薄发。在迈向下一代智能云数仓的道路上,MaxCompute 在 Data+AI / 湖仓一体 / 近实时数仓 / 企业级能力四大方向,又走出坚定且扎实一大步。
希望广泛用户在云栖大会上了解 MaxCompute 全新发布后,积极尝试与应用 MaxCompute 新一代智能云产品,为行业与用户提供最优秀的云数仓产品。
二、绝味集团基于阿里云大数据产品构建全域数智增长底座
同时,在云栖大会-商用大数据计算与分析平台专场,绝味集团首席数智增长官谌鹏飞先生也分享了基于阿里云 MaxCompute、Hologres、DataWorks 及实时计算 Flink 版等产品的大数据链路,构建支撑全域数智增长的稳固底座,推动了绝味集团的数字化转型。主要应用在以下几个方面,并取得显著效果:
绝知:大数据+知识库+ AI 赋能店长创新应用,累计使用超过 4.1 万人,经营效率提升 20%;
智能选址:大数据+算法结合,定位黄金商机,选址业绩准确率 80.8%;
产品创新:大数据+ AI 洞察产品脉搏,用户画像精准分析;
物流监控:大数据全链路品质管控,促进客户满意度提升了 10%以上。
MaxCompute 从 2009 年诞生至今,作为阿里云最核心的核心战略级云数仓产品之一,一直在进化。现在我们已经发展成一个 EB 级的企业级数仓。阿里集团、蚂蚁集团,还有数万个企业用户像绝味集团一样,都在使用 MaxCompute,构建大数据平台底座推动业务增长,欢迎大家后续关注与使用,谢谢大家!
评论