写点什么

教你三步实现 CDH 到星环 TDH 的平滑迁移

作者:星环科技
  • 2022 年 4 月 02 日
  • 本文字数:3031 字

    阅读完需:约 10 分钟

         Transwarp Data Hub(TDH) 是星环科技自主研发的企业级一站式多模型大数据基础平台,其领先的多模型技术架构提供统一的接口层,统一的计算引擎层,统一的分布式存储管理层,统一的资源调度层,以及异构存储引擎层。8 种异构存储引擎可以支持包括关系表、文本、时空地理、图数据、文档、时序等在内的 10 种数据模型。存算解耦特性支持弹性扩展,让资源配置更灵活。



​ 星环一站式多模型大数据基础平台 TDH 架构图


        TDH 能够存储 PB 级别的海量数据,同时能够提供高性能的查询搜索、实时分析、统计分析、预测性分析等数据分析功能,被广泛应用在离线数据批处理、高并发的在线数据服务、数据集市、数据仓库、数据湖、图存储分析、空间数据存储、实时数据处理等各类大数据业务场景。

        目前 TDH 已经在政府、金融、能源、制造业等十多个行业内落地,可以替代 Oracle、IBM DB2、Teradata 等传统主流数据库在分析型场景中的应用及替代 CDH 在大数据平台的应用,帮助企业,更全面、更便捷、更智能、更安全地运用数据,加速企业数字化转型。

        本文将基于某金融机构的数据仓库批处理场景来手把手带领大家“三步”完成 CDH 到星环 TDH 的平滑迁移。

CDH 集群及业务场景

        某金融机构基于 CDH 构建了离线数仓和对客高并发查询业务,完整业务场景包括:

  • 数据抽取,通过 Sqoop 基本从业务数据库中抽取数据到分布式文件 HDFS;

  • 数据加载,通过 Shell 脚本将数据 Load 到离线数仓 Hive 中,保存为 orc 格式;

  • 数据加工,通过 Hive 脚本做数据离线批处理加工,支撑营销、风控等业务;

  • 对客查询,部分结果 load 到 HBase 对客提供高并发查询服务;

        实际客户场景涉及数千张表和脚本,百 TB 级别数据量,这里我们对其中完整逻辑做了抽象,精简的过程便以理解迁移过程。


  • CDH 集群信息


  • CDH 数据处理流程 数据抽取(模拟数据 ETL)

        用 Sqoop 工具从业务数据库抽取数据到 Hive 表。



  •       批处理数据(模拟数据加工)

        在 Hive 中执行批处理 SQL,把结果写入销售统计表。


  • 将处理结果导入 HBase,在 HBase 中查询结果(模拟对客查询)

        * 用 HBase 的导数工具把 Hive 批处理结果导入 HBase。



        * 点查



        在正式迁移之前,我们需要准备好 TDH 的部署环境,并安装好星环 TDH,具体的安装步骤可参考《手把手教你安装 TDH8.1.0》。


TDH 集群信息

  • TDH 集群信息



  • 星环 TDH 产品介绍



        在安装好 TDH 及服务之后,我们需要安装星环大数据平台数据备份恢复软件 Transwarp  Backup (TBAK),之后我们就可以在 TBAK 的可视化界面通过简单的“三步”来实现 CDH 到星环 TDH 的平滑迁移。

        Transwarp  Backup (TBAK)是星环的大数据平台数据备份恢复软件,可独立于生产集群与备份集群之外,具备灾备方案制定与调度灾备任务的功能。同时,灾备系统提供了可视化的操作页面以及丰富的统计监控页面,用户通过浏览器进行简单的操作即可直观的设计灾备方案、分析灾备任务,从而完成集群的数据备份、同步、迁移。


三步实现 CDH 到星环 TDH 的平滑迁移

Step1 配置 CDH 和 TDH 集群

        该步骤主要是用来配置 CDH 和 TDH 集群,为后续数据迁移做准备。星环 TBAK 提供可视化的界面进行集群配置,我们根据界面指引式向导进行配置即可完成,简便快捷。

  • CDH 集群配置

        首先新建一个 CDH 集群配置,我们可以在集群配置界面设置 CDH 集群名称,协议,CDH Manager IP,端口,用户名和密码等信息。


        当集群信息配置完成并校验成功后,我们就可以获取到配置文件。之后我们需要对各服务进行配置并测试连接,在该案例场景中使用的是 HDFS,HBase 和 Hive。



  • TDH 集群配置

        同样,我们对 TDH 集群进行相应配置。


Step2 创建 CDH 迁移方案

        当 CDH 和 TDH 集群配置完成后,我们就可以配置 CDH 到 TDH 的迁移方案了。根据该案例 CDH 的业务情况,我们需要分别对 CDH Hive,HDFS 和 HBase 的迁移方案进行配置。



  • 创建 CDH Hive 迁移方案

        以 CDH Hive 迁移方案为例,TDH 提供服务级和表级的迁移策略,例如这里我们在同步类型中选择“CDH 到 TDH Hvie 表迁移”,同时我们可以对源集群,灾备集群,调度策略等进行配置。在调度策略中用户可以根据实际情况进行配置,我们可以设置在业务空窗期的每天凌晨 2 点进行数据迁移。同时,用户可以设置相应的告警策略,当迁移发生问题时可以第一时间收到告警信息并对问题进行排查和恢复。




与创建 CDH Hive 迁移方案的操作步骤相同,我们可以对 CDH HFDS 和 HBase 的迁移方案进行配置。

Step3 执行迁移任务和结果检查

        当集群配置完成后,所有的迁移方案将在迁移方案界面进行管理和操作。我们可以选择相应的迁移方案进行操作,例如立即执行和设置执行策略。

  • 执行迁移任务



        点击执行迁移任务之后,系统进入到自动迁移状态,我们可以监测迁移任务执行的整体状态信息,并且可以对每一步的执行情况进行实时监测,例如成功,失败,告警,执行中和未执行。当迁移发生故障时,我们会收到执行故障的告警,并对故障发生的阶段进行排查和故障恢复。




  • 迁移结果检查

当所有迁移步骤都显示成功后,我们可以对迁移前后的情况进行检查确认。

  •         Hive 迁移

        迁移前 CDH Hive 表



        迁移前 TDH Inceptor 对应表不存在



迁移后 TDH Inceptor 对应表查询结果



        如上检查,我们可以确认 CDH Hive 表迁移成功。同样地,我们对 HDFS 和 HBase 迁移情况进行检查以确认迁移已成功。

        至此,CDH 到 TDH 的迁移工作就全部完成了。

        整个迁移过程均在可视化界面完成,逻辑清晰,操作简单,配置灵活,通过 3 步即可完成所有的迁移工作,同时用户可以对迁移过程进行全流程实时监控,保障整个迁移过程顺利进行。


迁移后 TDH 数据处理流程

        接下来我们来看看 CDH 迁移到 TDH 后的数据处理流程。

  • 数据 ETL(抽取+加载)

        在星环大数据开发工具 Transwarp Data Studio(TDS)中配置数据同步,从业务数据库抽取数据到星环关系型分析引擎 Inceptor 中。




  • 数据加工

Inceptor 高度兼容 Hive,批处理任务基本不需改动即可以迁移到 Inceptor 执行。

与 CDH 要手动向 HBase 导入数据不同,TDH 中可以直接把批处理结果写入 Hyperbase 表中。




  • Hyperbase 提供对客高并发查询

        Transwarp Hyperbase 支持 SQL 和 API 两种查询方式,用户可以根据实际情况进行选择。

  •         SQL 查询方式

        对传统数据库开发人员友好,门槛低,新业务开发和维护成本低。



  •         API 查询方式

        星环 TDH 对原来基于 CDH 开发的应用兼容性高,原先业务可以平滑迁移到 TDH。



迁移前后数据处理流程对比


        以上就是从 CDH 到星环一站式多模型大数据平台 TDH 的迁移过程介绍。

        作为一家企业级大数据基础软件开发商,星环科技始终坚持自主研发与技术创新,并注重技术的落地应用,帮助各行各业的用户提供国产化大数据基础软件,为企业数字化转型提供强大的技术支撑。


链接:

1. 手把手教你安装 TDH8.1.0  【产品实操】手把手教你安装 TDH8.1.0

2. 星环科技 TDH8.1.0:全新升级为用户带来极致体验  星环科技 TDH8.1.0:全新升级为用户带来极致体验

3. 便捷、高效、智能—从运维视角看星环科技大数据基础平台 TDH  便捷、高效、智能—从运维视角看星环科技大数据基础平台TDH

用户头像

星环科技

关注

还未添加个人签名 2020.10.22 加入

领航大数据与人工智能基础软件新纪元

评论

发布
暂无评论
教你三步实现CDH到星环TDH的平滑迁移_国产数据库_星环科技_InfoQ写作平台