写点什么

AWS 数据合作伙伴|质变科技受邀分享 Serverless AI-ready Data Cloud

  • 2024-12-09
    浙江
  • 本文字数:2151 字

    阅读完需:约 7 分钟


近日,作为亚马逊云科技(AWS)合作伙伴,质变科技受邀参加“数据赋能·智启未来”——亚马逊云科技数据合作伙伴荟萃周活动。质变科技产品经理宁愚进行了主题演讲《Serverless AI-ready Data Cloud》,以下是演讲内容整理。


 数据平台的演进历程



从数据平台演进的历程看,在上个世纪 90 年代,BI 是由单独数据库进行分析;随着数据的增多和多数据源汇聚,出现了数据仓库产品形态,典型厂商包括 Oracle/Teradata;随着大数据的发展,出现了 Hadoop 体系,对 ETL、流数据、批数据进行处理;随着技术进一步演进,出现了湖仓一体;随着 LLM 出现,企业级客户对数据进行实时和融合的数据分析,这里面就是结构化和非结构化数据的融合分析。


从数据引擎的技术变迁看,最早 SMP 到 MPP 架构都是在 IDC/自己的机房部署,典型的产品还是出自 Oracle、Teradata、Greenplum,随着 Hadoop 体系诞生之后,以 BSP 计算模型为核心的 Hive、Spark 等产品流行起来;随着云出现,这些产品先被云化,相当于将这些产品从 IDC 转移到云上,而随着 Kubernetes、OSS 等云上技术发展,云产品逐渐从云托管转换到云原生;随着 LLM 的出现,AI 和数据技术不断融合,出现了全新的 AI-ready 的数据云和 AI-native 的数据分析产品。


在整个数据平台和数据引擎技术变迁的历程当中,质变科技孕育和孵化了核心产品:Relyt AI-ready Data Cloud。


 以数据为中心的云底座:Relyt AI-ready Data Cloud



Relyt AI-ready Data Cloud 在公有云(AWS 在内的全球主流公有云服务可用)之上,构建了结构化和非结构化数据融合(表/文本/图/向量/文件/数据湖)的一份数据服务层,存储之上我们构建了一个无状态的计算服务 DPS,最上层是通过大模型能力实现的 AI 数据分析服务,自底向上我们构建了完整 AI-ready Data Cloud 产品体系。Relyt AI-ready Data Cloud 提供 SQL、Python 标准接口服务。「现可通过 AWS Marketplace 下单购买经百万 AI 数据分析用户验证的 Relyt AI-ready Data Cloud:https://aws.amazon.com/marketplace/pp/prodview-sj3gjqpgqdqq4


10X TCO 节省



在计算、元数据、数据耦合的传统架构下,存在资源利用率不高,资源扩展性不足等问题,而 Relyt 基于元数据、数据、缓存、计算解耦架构实现分层架构,在存储层之上拆分出 Scan、Projection、Filter、Join 等算子,针对这些算子进行优化后结合资源形成无状态的 Serverless 的计算服务 DPS,这样就带来了以下好处:首先,计算无状态保证很好的扩展性,调度一个新的 DPS/计算资源只需要几十毫秒;其次计算密度提升,通过将算子进行原子化之后,我们可以充分利用云上 ECS 特性,提升包括 ARM/x86 等异构资源的性价比。这样实现了 10X TCO 的成本优化。

零运维、99.9%的查询成功率



在高并发实时查询(报表等)和不定时的高吞吐的 ETL 查询混合场景下,高吞吐任务在 MPP 架构下会占据全部计算资源,导致实时查询任务得不到响应,Relyt 组件 AQS(Adaptive Query Scaling)会自动识别高吞吐,对系统负载压力大的查询,将其调度到弹性的资源池中,让客户实现按量付费,应用 BSP 模型保证其查询成功率,这种架构的好处有二:第一,我们可以在同一平台中实现混合负载,包含高并发查询和高吞吐查询;第二,保证了系统的高可靠和高可用。通过 AQS 实现查询的自动路由,这种能力在资源没有充分准备或者临时流量到来时,执行兜底方案,这样就大大降低客户的使用成本和风险的,保证客户专注业务开发而非底层资源的维护。算子优化



Relyt 对算子进行了层层拆分,同时对软硬件进行了协同优化。在 TPC-H 基准测试中,我们将所有的查询进行汇总,按照 Filter/Projection、Join、Aggregation 进行分类,对比产品 Trino、Spark、Clickhouse 性能,在 Filter/Projection 场景下,Relyt 性能是 Spark 的 7.6 倍;在 Join 场景下,性能是 Trino 的 5 倍;在 Join 场景下,性能也优于其他产品。综上,在以上所有类别算子场景下,Relyt 查询成功率 100%。向量查询性能



在 1000 万/512 维的人脸数据上,进行 8 核/32GB RAM /32 并发的查询测试,要求查询准确性为 99%。可以看到 Relyt QPS 达到 12000-14000 之间,对比其他产品性能有 1.8X~5X 提升。PB 级数据实时分析



今天,客户系统中包含 BI、搜索、推荐、风控、运营等越来越多的实时业务,对数据实时分析的需求越来越旺盛。数据的实时包括两个方面:一方面是数据的实时写入,另一个是数据的实时查询。在实时写入方面,Relyt 提供 ACID 的能力,支持百万级每秒的高吞吐的能力,提供 ODBC/JDBC 和 OpenAPI 两种接口方式,支持高并发的 KV 点查,最大并发查询超过 1000。


端到端的安全、隐私和合规保障



Relyt 基于公有云提供数据治理、联邦分析等能力,支持符合多国政策的多云、多 region 安全合规体系,提供数据库安全、数据加密和隐私保护、数据防泄漏/防丢失保护、用户登录和数据库链接认证等端到端安全保障。目前已通过国际标准化组织信息安全标准 ISO27001、信息技术服务管理标准 ISO20000,美国会计师公会数据安全控制标准 AICPA SOC2 认证,满足欧盟通用数据保护条例 GDPR、新加坡个人数据保护法 PDPA 等合规要求。


20+生态链接



Relyt 基于 PostgreSQL 协议,兼容 Data Ops、Data Pipeline、BI&数据可视化等 20+生态产品,支持从 Redshift/Greenplum 平滑迁移。


Data+AI 一体化架构的 Relyt AI-ready Data Cloud,从根本解决了企业私有数据分析场景面临的规模、实时、准确性、成本问题,在此之上可快速构建企业客户个性化的自主数据分析应用。

发布于: 刚刚阅读数: 5
用户头像

经生产验证的AI数据云提供商 2024-06-14 加入

让企业在数据资产上自由、快速、安全地构建个性化AI

评论

发布
暂无评论
AWS数据合作伙伴|质变科技受邀分享Serverless AI-ready Data Cloud_Data Lake_AI数据云Relyt_InfoQ写作社区