写点什么

CDH/HDP 迁移之路

作者:星环科技
  • 2022 年 4 月 03 日
  • 本文字数:5952 字

    阅读完需:约 20 分钟

哪些用户需要迁移

原社区版用户

  • 社区版不再更新

Cloudera(Cloudera 和 Hortonworks 合并后)所有产品不再提供社区版,用户无法获取新的功能。

  • 社区版不再免费

2021 年 1 月 31 日开始,所有 Cloudera 软件都需要有效的订阅,且订阅费昂贵(50 个节点,一年订阅费 50 万美元)。

原企业版用户

  • 企业版不再更新

Cloudera 和 Hortonworks 合并后推出了新一代大数据平台 CDP,CDH 6 和 HDP 3 将是 CDH 和 HDP 的最后企业版本,用户无法继续获取新的功能和性能提升。

  • 企业版不再服务

至 2022 年 3 月份,CDH/HDP 全部 EoS,用户没办法获取售后支持:


​来源:cloudera 官网


迁移方向

方向一:CDP


CDP 是 Cloudera 和 Hortonworks 合并后发布的新产品,融合原来 CDH 和 HDP 能力并增加了一些新功能和 BugFix,支持云部署等能力。


虽然 CDP 提供了一些新能力,也将继续更新并提供支持,但外国的软件无法适配国产软硬件生态(国产芯片、操作系统、服务器、中间件),技术方向不能自主可控,许可证也受外国法律限制,近期俄罗斯事件将这方面风险彻底暴露:

  • Oracle 宣布暂停在俄业务

3 月 3 日,Oracle 发推文称:“为了 Oracle 在全球各地的 150000 名员工的利益,为了支持乌克兰民选政府和乌克兰人民,Oracle 公司已经暂停了在俄罗斯联邦的所有业务。

  • 众多科技公司断供俄罗斯

a. 谷歌宣布 Google Pay 在俄罗斯无限期暂停使用;b. 苹果公司除了宣布在俄罗斯停用 Apple Pay 以外,也在俄罗斯境内停止所有产品的销售 c. 英特尔、戴尔、AMD 宣布向俄罗斯断供芯片

d. ……


  • 下一个或是 GitHub?

外媒消息称,全球第一代代码托管平台 GitHub 正在考虑限制俄罗斯开发人员使用开源软件。尽管此类软件的使用是免费的,但它的许可协议仍然存在诸多限制,包括禁止受制裁的国家使用原本对公众免费开放的代码。

方向二:国内封装的 Hadoop 商业版


对开源组件进行封装,安装部署运维方面有一些增强。

但是不可避免的,封装开源组件始终是受制于国外法律与国际形势,风险与方向一迁移到 CDP 相当。

同时,对开源组件进行封装的厂商无法获取最新的源代码。另外,很多人认为有源代码就可以自主可控,实际代码只是一个技术的载体,仅仅拥有源代码并不代表拥有核心技术,数千万行代码里扫清有意无意的漏洞根本不现实,拥抱开源的同时也一定拥抱了风险。

随着美国公司 Cloudera 不再更新社区版,这一类产品将无法获得能力更新,除非也升级到 CDP,完全走向方向一。


方向三:国内自主研发大数据产品 TDH

Transwarp Data Hub(TDH)是星环科技自主研发的企业级一站式多模型大数据基础平台,采用领先的多模型技术架构,8 种存储引擎支持 10 种数据模型,成套的工具组件让系统的安装部署、扩容升级、安全防卫、风险告警、权限管理等工作变得更便捷。在技术领先性、性能、易用性、安全性、国产化生态兼容性,以及售后服务等诸多方面具有优势。同时,国产自主研发的 TDH 对国产化生态具有高度兼容性,满足信创验收要求。

迁移到不同平台后获得的能力

迁移到国产自主研发大数据产品 TDH

  • 如果你关注功能

TDH 的多模架构,支持关系表、文本、时空地理、图数据、文档、时序等在内的 10 种数据模型;离线数据批处理、高并发的在线数据服务、数据集市、数据仓库、数据湖、图存储分析、空间数据存储、实时数据处理、数据中台、数据治理等各类大数据业务场景一站解决。

  • 如果你关注性能

TDH 自研高性能分布式计算和存储引擎,整体性能是 CDP 的 5~25 倍。

  • 如果你关注开发

TDH 完整支持 SQL2003 标准,支持 PLSQL 存储过程,兼容 Oracle、DB2、Teradata 等方言,无需每个场景一套接口。

  • 如果你关注运维

TDH 提供开箱即用的可视化运维监控、安全管控工具,容器技术带来极致的安装、升级、补丁体验。

  • 如果你关注售后

TDH 原厂超过 1100 人研发与支持团队和超过 3 万名星环科技认证的大数据工程师,专业性更强,售后无忧。

  • 如果你关注架构

TDH 提供统一 SQL 引擎、统一计算引擎、统一分布式存储管理、统一资源调度、统一内联架构高效搞定湖仓集一体、HTAP 等复杂场景,无需平凑组件散装架构。

  • 如果你关注安全

TDH 提供的容器隔离、灾备、访问控制、联邦学习、隐私保护、可信计算等技术保障网络层、加固层、治理层、流通层全方位数据安全。

  • 如果你关注国产化

TDH 完全自研,通过工信部代码自主研发率扫描测试。同时 TDH 完成了与主流信创生态厂商的适配互认工作,满足信创验收要求。


迁移到 CDP


迁移方向的对比分析

以下分别从兼容性、技术领先性、性能、易用性、稳定性、灾备与可靠性、安全性、自主可控、国产生态、解决方案、售后服务等多方面对比各迁移方向,供用户参考。

兼容性


兼容性,直接决定迁移成本。很多客户认为 CDP 是 CDH/HDP 的高版本,应可以平滑升级,基于开源整合的产品,也可以平滑升级,而 TDH 是国内自主研发的大数据产品,兼容性不好,升级成本高,其实不然。

  • CDP

1) CDH 5 升级 CDP 有严重组件版本兼容性问题, 包括 sentry 换成 ranger,Hive2 升级到 Hive3,升级对组件的兼容性影响大;2) 例如:某客户 CDH5 升级到 CDP 的升级时间长达数月之久。

  • 开源封装产品

1) 基础存储和计算组件同样有兼容性问题;2) CDH 安全、运维管理等不开源组件和功能无法升级,且目前没有很好解决方案。

  • 星环科技 TDH

1) TDH 基础存储和计算组件兼容 CDH/HDP,迁移成本低;2) TDH 提供迁移工具,数据一键迁移;3) 大量迁移成功案例,不存在迁移风险。技术领先性

TDH 产品技术始终领先于同类型产品 2~3 年,在大数据技术领域较早实现多项技术突破,例如 2015 年 TDH4.0 就完整支持分布式事务,同类型如 Hive 在多年后任然不能很好支持;2016 年发布的 TDH5.0 推出新一代资源管理与调度技术,将容器技术和大数据技术有效结合,提供有效的资源隔离技术同时带来极致的安装和升级体验,Cloudera 2020 年也计划相关产品使用这一解决方案;2020 年 TDH 7.0 推出了创新的多模技术架构,实现了通过统一 SQL 引擎对关系型、文本、图数据、时空、时序等数据模型进行操作,在行业内处于先进水平。



星环科技 TDH 多模型数据管理平台技术架构图

星环科技长期在大数据基础软件研发与产品化过程中自主研发形成了一系列先进的核心技术,这支撑了 TDH 产品的先进性,也在金融、政府、能源、交通、制造业等国民经济重点领域中得到广泛应用。随着公司研发投入大幅提升,未来星环 TDH 将持续保持技术领先的优势。


性能提升

  • TDH(Inceptor)整体性能是 CDP(Hive on Tez)的 5X

Inceptor 是星环科技自主研发的关系型分析引擎,基于 TPCDS 1TB 的数据规模,同等配置下(4X10cores)TDH(Inceptor)和 CDP(Hive on Tez)进行性能对比,复杂场景有 7~25X 性能提升。


  • TDH(Hyperbase)性能优于 CDP(Hbase)

Hyperbase 是星环科技自主研发的 NoSQL 宽表数据库,基于 1000W 条的数据集,TDH(Hyperbase)性能优于 CDP(Hbase)。


  • TDH(ArgoDB)性能是 CDP(Impala)的 2~6X

ArgoDB 是星环科技自主研发的分布式关系型数据库,基于 TPCDS 1TB 的数据规模,同等配置下(4X10cores)TDH(ArgoDB)和 CDP(Impala)进行 Ad Hoc 查询性能对比情况,具体性能对比如图所示:


基于 TPC-H 1TB 的数据规模,同等配置下,基于不同的查询分析场景下,TDH(ArgoDB)性能是 CDP(Impala)的 2~6X。


  • TDH(Slipstream) 优于 CDP(Flink)

Slipstream 是星环科技自主研发的实时流计算引擎,在多场景上性能整体优于 CDP(Flink)。



  • TDH(Scope) 优于 Elastic Search

星环科技全文搜索引擎 Scope 吞吐量测试性能上优于 ES。



易用性

  • 统一计算引擎

CDP/开源封装产品使用一系列孤立的 SQL 引擎, 如 Apache SparkSQL、Apache Hive、Phoenix(SQL on HBase)、Cloudera Impala 等。每个 SQL 引擎都有各自的局限性,使得用户难于学习掌握,开发使用、应用对接、实际落地、事后运维方面成本高。

星环科技 TDH 采用自研统一计算引擎,提供统一 SQL 接口处理,支持 SQL 2003 标准与存储过程,并且支持 Oracle/DB2/Teradata 等 SQL 方言。

此外,统一引擎另一个好处是,各类存储的数据可以在一个作业(如一个 SQL 语句)中,被抽取到统一引擎中进行分布式计算,而无需开发人员自己写分布式代码,从各个引擎中读取数据再加工。整个易用性、开发效率和运行效率都提高很多。


  • 一体多模架构

TDH 的多模型支持特性可轻松胜任复杂场景。通过 8 种独立的存储引擎,支持业界主流的 10 种存储模型:关系型数据存储、宽表存储、搜索引擎、地理空间 存储、图存储、键值存储、事件存储、时序存储、文本存储、对象存储。在一个数据库中同时支持多种数据模型(例如关系表、文本和图片),可以避免分库分表,简化了应用的设计,支持直接高速存储、检索和统计多模型的数据。

CDP/开源封装产品通过多个互相独立的组件提供相应的能力,复杂场景需要多个组件+数据冗余完成,中间的开发和运维十分不便。

  • 全套工具集

TDH 提供 SQL 开发工具、轻量级 ETL 工具、数据调度工作流工具、图形化数据建模工具、交互式分析与 Cube 设计工具、元数据管理工具、可视化报表、大数据治理工具、灾备工具等大量易用性工具。


稳定性


  • 计算引擎

星环科技 TDH 自研的计算引擎 Quark 拥有:1) 分布式调度算法 Furion Scheduler,支持 task 级别调度能力,相比 CDP/开源封装产品 Task set 级别调度,在业务混合负载并发高效果和稳定性更好,不会出现一个大任务占满资源把引擎跑崩,集群规模大情况下表现尤为明显;2) Shuffle 过程内存控制技术,当数据量超过一定阀值时中间结果会 spill 到磁盘,不会出现 OOM 情况;3) 聚合采样技术,当聚合率不高或者占用内存太多时,会放弃预聚合,直接 shuffle,来保证引擎稳定性;4) Server 级别 HA,不存在 server 单点故障;5) Task 重试机制,task 级别重试使得大任务重试代价小,不会出现一个大任务不断重试把引擎跑崩情况;6) 计算引擎保护机制,在特别情况如误提交超大表笛卡尔积计算任务,引擎会直接拒绝执行 SQL,进一步保护计算引擎,保证稳定性;7) 分布式 Checkpoint 容错机制,相比 ACK 机制,效率和稳定性更优。

  • 存储引擎

星环科技 TDH 在存储层面具备:1) 小文件自动合并技术,同等数据量情况下,文件数远少于 CDP/开源封装产品,大数据量情况下稳定性高;2) 堆外内存技术,单机容量得到提升,同时避免 full GC 导致的集群稳定性问题,如 Scope 稳定运行单机容量可达 50TB,而 CDP/开源 ES 上限只有 10TB;3) 分布式 Raft 协议,支持集群规模更大更稳定,如 ArgoDB 可稳定支持 2000+节点集群,可以根据企业需求线性扩容,支持 PB 级数据存储;而 CDP(Kudu)单集群最大规模不超过 100 个存储节点,单节点超过 8T 存储就会不稳定;除此之外,自研的读写分离技术、索引技术、坏盘处理技术等,配合全流程监控告警能力, 让 TDH 支持系统 7*24 小时稳定运行。

这些能力是 CDP/开源封装产品不具备的,因而在文件数多、数据量大、任务并发高、集群规模大的情况下,TDH 整体稳定性远超 CDP/开源封装产品。

灾备与可靠性

TDH 有数据同步备份工具,原厂级组件支持,基于数据块级别复制数据备份效率高、代价低,支持热备、温备、冷备等多种数据备份模式,支持全量备份/全量同步/增量同步,开放接口供其他工具或应用调用,具有全流程可视化界面。

CDP/开源封装产品目前主要还是依赖多副本机制保障集群内数据可靠性,异地容灾没有高效方案,只能做到 HDFS 的数据拷贝,效率低、代价大。安全性

星环科技 TDH 提供了大数据安全合规能力,在企业构建大数据能力的同时,确保数据业务的安全合规。平台基于敏感识别与分类分级,帮助企业实现大数据资产的分类管理,分级保护。支持多种数据安全防护能力,包括静态脱敏、动态脱敏、数据水印,加强了数据业务事中控制能力。平台还支持以数据为中心的监测与审计能力,能识别敏感数据操作并进行用户实体行为分析,能及时进行告警,提供事后可查溯源的能力。

CDP/开源封装产品不具备这些能力。自主研发

自主可控方面 TDH 有绝对优势,TDH 产品通过工信部自主代码扫描测试。

CDP 完全是国外软件,不可控,国产软硬支持不好。

开源封装产品依赖开源,不能自主可控,很多组件受美国法律限制,不能规避“被制裁”风险。部分产品有 license 风险,如 ES 已经改开源 license 策略了,后续商用存在一定的风险。国产生态

星环科技 TDH 已完成与主流信创生态厂商的适配互认工作,适配长城飞腾、华为泰山、浪潮等服务器,鲲鹏、飞腾 CPU,麒麟、统信等 OS,并有官方认证,支持基于 ARM 与 X86 服务器服务器混合部署并有落地案例,满足信创验收要求。CDP 在国产化服务器、CPU、GPU 资源池化、操作系统等方面支持能力不足,无法很好地满足国产生态。



在国产生态方面,TDH 已经有非常多落地案例,并且性能提升明显。在不同指令集的 CPU 架构均表现出优异的性能,如 ARM(鲲鹏)和 X86(海光)在 CPU 密集型计算和 IO 密集型计算上性能提升显著。


解决方案

星环科技 TDH 统一内联大数据底座优于 CDP/开源封装产品的散装数据底座。

CDP/开源封装产品,每个场景需要一个组件独立交付,开发语言和接口基本完全不同,客户新业务开发、业务需求变更成本极高。




售后服务

TDH 的产品提供方星环科技是国内厂商,具有非常强大的研发、技术支持与服务能力,可以快速响应客户定制化需求,提供强大的原厂售后服务保障能力。CDP 的产品提供方 Cloudera 依靠国内代理商提供销售并提供实施、运维服务;Cloudera 在国内主要是运维人员,没有原厂技术研发人员,很难保障 SLA。由于支持不到位,很多国内 CDH 企业版客户已经购买了或者希望购买星环科技技术人员提供技术保障。

某开源封装产品对营运商客户采用直销方式,其他客户一律采用渠道销售方式,大部分行业原厂售后服务保障能力较低。其产品核心研发团队较少,大部分技术人员在处理各类开源技术 Bug 及客户问题远程技术支持,专业性不足。

迁移案例

某通信集团

该集团核心业务系统存量数据 10PB 级别,每日增量数 TB,批处理作业数千个,数据量大,业务价值高。

原有系统使用 CDH+Oracle 混合架构,CDH 有近 200 节点,主要承担数据批处理加工,Oracle 对接上层应用,CDH 散装架构和 CDH+Oracle 混合架构带给客户巨大的开发运维成本,同时批处理性能、稳定性和安全性也无法满足客户数据增长需求。

最终星环科技在项目一期用 TDH 成功迁移了客户 CDH+Oracle 混合架构的数据平台,“一个顶两”,并且数据稽核、联邦计算、资源调度、安全性、高可用、易用性等关键能力得到增强,真正实现“降本增效”。

迁移全程用时 6 个月不到,充分体现了 TDH 对 CDH 的兼容性,以及 Oracle 方言和存储过程支持能力。

随着一些新应用上线,目前 TDH 集群生产环境扩容至近 200 个节点,直接对接经营分析、计费、客服、账务、结算等系统。


某航空公司

该航空公司原来使用 HDP+Oracle 混合架构建设企业数据平台,涉及流处理、批处理、高并发查询等技术场景。

客户部署了几十个节点的 HDP 集群,但是散装架构带给客户巨大的开发运维成本,同时性能、实时性和稳定性也无法满足客户需求。

最终星环科技一期项目用 TDH 成功迁移了客户 HDP 集群,由于 TDH 对 HDP 的兼容性高,全部数据+业务迁移不到 5 个月时间(包含 1 个月并行运行测试)。

当前 TDH 集群近百个节点,TDH 极好的 SQL 和 Oracle 方言支持让客户上线了很多新应用。

用户头像

星环科技

关注

还未添加个人签名 2020.10.22 加入

领航大数据与人工智能基础软件新纪元

评论

发布
暂无评论
CDH/HDP迁移之路_星环科技_InfoQ写作平台