写点什么

企业的数据存储、处理与分析之道

作者:云布道师
  • 2023-01-17
    浙江
  • 本文字数:3494 字

    阅读完需:约 11 分钟

企业的数据存储、处理与分析之道

12 月 30 日,SelectDB 携手阿里云共同举办云数仓专场沙龙,在线上沙龙中,来自 SelectDB 和 阿里云的四位云计算领域专家,深入数仓的发展现状和未来趋势,结合企业级的真实场景落地案例,对技术和产品进行了详细的解读。

SelectDB Cloud 飞轮科技核心云产品

来自 SelectDB 的云产品负责人姜国强总结了目前数据仓库发展的需求与演进方向,他认为:“目前,我们已经来到了以云数仓为中心的现代数据栈时代,数据分析技术的融合发展、云的规模化,可以解决成本问题、实时性问题;云的按需使用、弹性伸缩可以很好的解决传统湖仓并行时代下遗留的问题和挑战,例如运维压力大、资源成本高以及对实时性、效率的更高要求等。”

在这样的背景下,飞轮科技诞生,并基于 Apache Doris 研发了新一代云原生实时仓库 SelectDB Cloud。

在研发中,SelectDB 引入了组织、仓库、集群三种不同的概念,姜国强介绍:“在 SelectDB Cloud 的概念中,一个公司便代表着一个独立的组织,一个组织能够通过创建不同的仓库来服务不同的业务,不同仓库间的资源和数据相互隔离。而一个仓库可以包含多个集群,它们共享底层的数据,不同集群可以满足不同的工作负载,十分方便。”


通过 SelectDB Cloud 的产品架构图,姜国强展示了 SelectDB Cloud 的研发思路和理念。基于云原生架构设计的 SelectDB Cloud 充分了利用云的创新硬件和技术,支持按需使用,无限拓展,能够为企业带来多云一致的服务体验;另外,SelectDB Cloud 在存算分离的架构下实现了弹性伸缩、负载分离、低成本和安全可靠,并且能够达到业界一流的性能;同时,SelectDB Cloud 能够高度兼容大数据的生态,大大降低了开发的门槛。


姜国强表示:“ 在未来,团队会持续优化 SelectDB Cloud 的产品设计,并逐渐将其打造成一款完全的 SaaS 化产品,为企业带来更加便捷的数据分析服务。”

SelectDB Cloud 技术内核与解决方案

在演讲中,SelectDB 的技术副总裁肖康深入解析了 SelectDB Cloud 五大特性——极致性价比、融合统一、简单易用、企业特性、开源开放的技术实现;同时,他还为大家详细阐述了 SelectDB 站在业务视角发布的四大解决方案,并通过与传统方案的对比展示了真实应用场景下 SelectDB Cloud 方案带来的提升与收获。


在介绍 SelectDB 产品特色时,肖康表示:“对性能的追求是 SelectDB 从一而终的追求。在性能方面, SelectDB 取得了不俗的成绩。” 从数据来看,SelectDB Cloud 在单表聚合场景和多表关联场景下都表现出了优于同类知名品牌的成绩。


  • 单表聚合场景性能:SelectDB Cloud 是 ClickHouse 的 3.4 倍;Presto 的 92 倍;Snowflake 的 6 倍。

  • 多表关联场景:SelectDB Cloud 是 Redshift 的 1.5 倍;ClickHouse 的 49 倍;Snowflake 的 2.5 倍。


综合对比之下,SelectDB 的性能可达到同类产品的 1.5 倍甚至更高。而在过去的一年中, SelectDB 通过其商业化产品和开源版本服务了国内来自不同行业的企业用户,包括海程邦达、云积分、360 数科、橙联股份、同程数科等,并为他们分别带来了超 94%—99% 的极致性能提升体验。

同时,基于创新研发的存算分离架构、弹性扩容机制以及数据对象存储的方式,SelectDB Cloud 实现了超低资源成本的优势,通过以往的用户实践数据显示,SelectDB Cloud 的成本仅为自有部署成本的 1/2-1/5,成本降低可达 50% 以上。在一组真实的客户场景中(3 个节点 5TB 数据,早晚需扩容 2 节点 4 小时),SelectDB 展现出了它极致的成本优势:对比之下,客户采用 EMR 托管 Doris 和购买 ECS 自建 Doris 的两种方式,成本消耗分别为为 40 万/年及 36 万/年,而采用 SelectDB Cloud 成本仅需 17 万/年。


目前,SelectDB Cloud 已通过阿里云平台上线,为用户提供多样化的弹性计费模式,支持按量支付、月包、年包混合的灵活搭配使用。


在解决方案上,SelectDB 面向内部的现代化数据平台、报表与分析、用户画像与行为分析和日志存储与分析四个场景推出现代化的方案,在各个场景均取得了优于原方案的效果提升。

四大解决方案具体收益:

  • 面向内部的现代化数据平台:复杂性降低,管理使用成本降低;平台的经济性提升,提供了极高的性价比;多云可用。

  • 面向客户的报表与分析:报表场景实现上万高并发;查询速度快,能够做到毫秒级别响应;实现数据流延时低,数据可见性最快可以做到秒级别;数据可靠,不丢不重。基于 SelectDB Cloud 的方案,某用户的广告业务场景,实现了上万 QPS 的高并发,查询延时 99 分位 200ms 以内,每天新增数十亿条记录。

  • 用户画像与行为分析解决方案:经过实践得出,SelectDB Cloud 可以做到行为分析在 3000 亿活跃数据的场景下,平均延迟小于 10s,P95 延迟在 20s 左右;用户画像在千亿数据下实现 10 个标签秒级人群预估和圈选,100 个标签 10 秒级。

  • 日志存储和分析解决方案:SelectDB Cloud 方案的综合能力表现十分优异,相比传统的方案能够达到 4.2 倍的写入性能提升,只占用 1/5 的磁盘空间,2.3 倍的查询性能提升。

阿里云 OSS 企业级数据湖的构建之道

阿里云高级产品专家马骏(其冀)表示,阿里云过去几年支持了上万家客户的云上数据湖和数仓分析业务,在这个过程中,对象存储 OSS 一直紧跟技术发展和客户需求,从数据湖 1.0 逐渐演进到数据湖 3.0,构建了文件对象融会贯通、冷热数据智能分层和云上云下数据互通的能力,进而满足如下几种核心诉求:

  • 存算分离:资源弹性扩展,按量付费

  • 一源多用:支撑多业务对数据同时查询分析

  • 安全可靠:数据不丢不错,权限管控和数据治理

  • 灵活分析:支持多元化计算引擎

  • 多级存储:通过生命周期管理来优化成本

具体来讲,如下的几大能力,可最大限度的满足云原生数仓或数据湖的构建,让客户无需锁定存储和计算资源,降低架构改造和底层资源的成本:


实现传统存算融合架构改造成存算分离架构:阿里云 OSS 构建了全面兼容 Hadoop 生态的能力,全兼容 HDFS 的协议接入,基于 Hadoop 的客户无需做改造适配,即可无缝迁移到 OSS 上。同时 OSS 将单个命名空间提升到 50 亿超大规模文件,10 万 QPS 的元数据操作,满足当前乃至未来三到五年的性能需求。这样就可以保持架构的前瞻性,无需担心业务分区和性能扩展问题。

OSS 可实现多协议文件的访问,提高小文件处理性能:OSS 同高性能文件存储 CPFS 打通,在面相 AI 和 HPC 的场景下,提升小文件的处理性能。客户既能享受对象存储的低成本,同时面向高性能需求可以利用 CPFS 来承载,提供百 TB280 万 IOPS 的性能。该能力可降低 95% 的计算等待时间,实现 POSIX/NFS 多协议的支持。


实现数据智能分层,成本优化可以达到 90%:OSS 提供 4 种类型的存储类型,分别是标准型、低频访问型、归档型和冷归档型,覆盖数据全生命周期,用户可以根据按最后修改时间和最后访问时间制定生命周期策略,冷归档可提供最高分钟级别的取回能力。


多层级全场景的数据保护,保证数据不丢不错:作为存储的基础能力,提供了多种可靠性与可用性技术,如版本控制,本地冗余,同城冗余,跨区域复制,全链路校验与纠删码,进而实现 99.995% 的可用性 SLA 和 12 个 9 的可靠性。

阿里云 OSS-HDFS 技术与能力解析

阿里云资深技术专家梁明旭(旭一)就全托管的 OSS-HDFS 服务架构做了详细的介绍。该服务是在 OSS 标准存储服务之上建立了一个高可用的元数据服务,其可靠性同 OSS 存储本身相媲美;同时利用 Master 模块实现了多租户接入;另外由于在 OSS 接入层之下构建,因此可提供服务端的形态,对用户上层应用透明;通过客户端将元数据操作和数据持久化操作进行分离,从而使架构的扩展性得到保障;通过元数据加持能够和 HDFS 等文件系统的层级命名空间相匹配,可以更好的面相客户各种生态兼容。

OSS-HDFS 服务相对友商的存储服务提供了更全面的 Hadoop 生态支持,包括 ACL、Chesksum、Trash 回收站自动清理、快照、Kerberos 与 Range 认证及安全、文件拼接等。这将大大降低客户从原先 Hdaoop 集群切换到 OSS-HDFS 的改造成本,最小化迁移过程中的应用侵入。同时数仓场景中,支持语义和操作,拓展属性,目录原子性、毫秒级别 rename。而一般对象存储难以支持的 flush、sync、truncate 等操作均可以通过 OSS-HDFS 实现,这样只要客户的引擎支持 HDFS,就能完美适配。


相比于社区 HDFS,OSS 标准版就能够节省 30% 的成本,如果综合使用 OSS 的分层能力,成本还可以大幅降低到 90%。在海量小文件超过 10 亿以上,社区版已经无法支持,但通过 OSS 依然能够支持且性能没有大幅衰减。在标准场景下,如 ETL 也有很多性能提升,在 40 万文件性能提升超过 64%。

目前,SelectDB Cloud 已上线阿里云,通过与阿里云平台所提供的基础云服务能力深度适配,双方将共同为客户带来极致的大数据相关解决方案。


企业的数据存储、处理与分析之道

用户头像

云布道师

关注

大道至简、教学相长、知行合一 2022-11-07 加入

聚焦“云&科技”领域,每日收获前沿技术与科技洞见。

评论

发布
暂无评论
企业的数据存储、处理与分析之道_阿里云_云布道师_InfoQ写作社区