写点什么

“唤醒”大数据价值,敏捷数据开发成为企业数字化发展的法宝

作者:数造万象
  • 2022-12-20
    广东
  • 本文字数:3149 字

    阅读完需:约 10 分钟

“唤醒”大数据价值,敏捷数据开发成为企业数字化发展的法宝

在大数据时代,大数据产业作为以数据生成、采集、存储、加工、分析、服务为主的战略性新兴产业,是激活数据要素潜能的关键支撑,是加快经济社会发展质量变革、效率变革、动力变革的重要引擎,大数据行业发展已上升至国家层战略。

数据驱动决策,信息社会智能化程度大幅提高,同时将出现跨行业、跨领域的数据整合,甚至是全社会的数据整合,从各种各样的数据中找到对于社会治理、产业发展更有价值的应用。与此同时,数字化进程也在推动数据开发平台的发展。

数据开发平台发展的四个阶段

第一阶段

在关系型数据库和数据仓库时代,以 Informatica、kettle 等为代表 ETL 工具备受企业和数据开发者青睐,数据开发者只需通过可视化组件拖拽即可实现数据抽取、转换和加载工作。这种模式使用门槛较低,但是灵活性不高。

第二阶段

随着 Hadoop 平台及相关技术组件出现,传统 ETL 工具难以满足灵活的计算和加工需求,很多企业开始手工编写代码调用大数据的底层技术,也就是说企业一方面要进行数据的业务开发,另一方面还要自行进行和管理底层大数据技术的调用,这种模式提升了代码开发灵活性,但使用门槛较高。

第三阶段

2015 年以互联网公司为代表,在企业内部开始采用类似数据中台技术对各类大数据组件进行集成和数据的统一管理,从而解决数据“烟囱”的问题。与数据中台相适配的数据开发平台,开始实现并逐步完善了数据的全生命周期加工,都融合在一站式开发平台。这种方式标准化了开发流程,屏蔽了底层技术细节,降低了门槛,但是企业付出的成本较高。

第四阶段

2020 年后,随着企业数字化化转型的推进及数据消费角色的增加,数据架构也发生了变化,企业对数据开发的需求从 ETL 扩展到数据探索、数据治理和数据服务,并且要求数据工程要更加敏捷,以更快响应数据需求,减少数据等待。

了解数据开发管控平台

随着企业的快速发展,很多企业内部堆积着很多数据,如果不好好管理,势必会杂乱无章,想用的时候根本无从下手。数据开发平台发展到第四阶段,企业要求更加敏捷的数据工程,提供更快的交付机制,拥抱市场和企业发展变化,为企业提供可持续发展运行机制。

把企业内部数据做一个统一管理,实现快速利用好数据资料,以此做出良好的经营决策,为企业谋福利是很多管理者的心声。那么什么样的数据开发平台可以实现这一目的?一起了解数造科技基于 DataOps 理念的数据开发管控平台吧!

数据开发管控平台功能

基于 DataOps 理念的数据开发管控平台,旨在利用自动化的力量,解决与数据访问、准备、集成和交付方面效率低下相关的挑战。敏捷的数据开发向数据消费者快速提供可信的高质量数据,支持企业的协作,以推动规模化推动敏捷性、速度和新的数据计划。

敏捷、协作的数据管道包括,提供一站式供从数据沙箱、数据集成、数据开发、持续集成、持续测试、持续部署、调度监控的将组成 DataOps 的步骤和过程自动化。降低数据工作者的使用门槛,提高开发效率。

1、初始化平台环境

以系统管理员角色登录平台,通过环境管理菜单配置平台与 Hadoop 底座的连接信息。配置过程中,需要区分开发态、测试态、生产态,不同环境态可以连接至同一个集群的不同数据库;通过组织管理菜单新增组织机构、成员及对应角色信息;通过规范设计菜单新增数据层次信息,数据层次将用于对项目空间进行标识。

2、创建项目空间

创建项目过程中,可以配置项目组成员及角色,可以申请资源信息。确认创建后,系统将发起立项工单交由部门管理员审批。待立项工单审批通过后,项目空间自动创建完成,此时可进入数据开发环节。项目空间中预置了四类项目角色,分别是项目管理员、开发人员、测试人员、访客。

3、表管理

各种表资源:当在项目资源中选择各种表资源,可在表管理维护各种表。

(1)支持各种表的可视化建表、DDL 建表,支持创建分区表,支持表结构复制;

(2)支持可视化建表与 DDL 建表的动态联动;

(3)支持数据预览、表版本管理、表保存和提测;

(4)支持 Hive 库表 metadata 维护和更新;

(5)支持查看开发库、测试库、生产库的表;

(6)支持以文件夹方式管理表。

沙箱表:通过与生产表共享 hdfs 数据文件的方式,在开发态及测试态下使用沙箱表模拟生产数据,用于开发和测试目的,能在保证生产数据安全的情况下简化测试数据准备过程。

(1)支持查看已申请的沙箱表清单及详情;

(2)支持重建/批量重建沙箱表;

(3)支持多种数据同步策略,更新沙箱表数据内容;

(4)支持通过 HiveSQL 脚本操作沙箱表数据,包括读取和写入。

4、批量数据开发

在数据开发过程中,以工作流为单位进行数据任务的开发和调度。一个工作流中包含数据集成任务、批量计算任务这两类。(1)数据集成

数据集成:主要是引入企业数据到 Hadoop 中进行数据开发和治理,数据集成功能提供对业务方数据库进行分布式数据抽取、监控功能,能对数据源进行数据同步与批量集成。

  1. 支持 SQL、SparkSQL、Python、Shell 等对表进行数据开发

  2. 支持 IDE 式编写交互体验,包括 SQL、SparkSQL、Python、Shell 关键字高亮、输入提示、代码补全、保存提示、撤销、重做等,支持快捷键操作

  3. 支持任务脚本的运行参数配置、版本管理、保存、运行、查看运行历史等功能

  4. 支持在线运行任务脚本,自动获取执行日志

  5. 支持限定 Shell 任务执行用户

(2)开发批量计算任务

批量计算任务分为 HiveSQL、SparkSQL、Python、Shell 四类,可根据项目所需的技术路线自由选择。

以创建一个 SQL 任务为例,描述脚本创建过程。

  1. 进入任务开发页面,在对应工作流中的“批量计算”节点上右键;

  2. 在右键菜单中,选择 HiveSQL 任务节点;

  3. 输入任务脚本的中文名名称、所属数据源、备注、是否加载模板等信息;

  4. 在任务编辑页面输入脚本内容;

  5. 运行脚本,进行单元测试。

项目管理员和开发人员都能进行上述任务的开发和调试,待完成单元测试后,即可提测任务和工作流。(3)开发锁

为避免在协同开发过程中出现多人同时编辑同一个任务,平台引入开发锁机制,支持用户对表、工作流、数据集成任务、批量计算任务进行加解锁操作,只有获取开发锁的用户才能编辑任务内容。

5、持续集成持续发布

(1)发布包管理

上线任务打包:实现对提交的表、任务、脚本进行打包,打包成发布包,并对发布包进行提测,按需打包发布,实现敏捷开发的任务发布过程。

下线任务打包:实现对提交下线申请的任务进行打包,打包成下线发布包,并对下线发布包的任务进行下线。(2)任务测试冒烟测试:任务测试提供对发布包任务的测试功能,实现了发布包提测后,自动部署表、脚本到测试环境。测试人员对提测发布包的作业进行冒烟测试。平台采集冒烟测试运行情况、日志、测试环境调度实例运行情况及测试意见,生成测试报告。(3)发布上线

测试通过的发布包可提交上线申请,通过申请后,系统会自动部署发布包内的表和脚本至生产环境,并注册任务到调度平台周期运行。

6、调度监控

  • 展示全局工作流和任务运行统计信息,可选择时间范围来统计,功能包括工作流运行概览、任务运行概览、工作流运行情况、任务耗时排行。对发布到调度监控的工作流进行监控和管理,展示工作流及任务的执行状态、执行实例等信息。

  • 面向运维人员提供全局的工作流及任务的搜索入口,能根据关键字查询所有工作流定义、工作流实例、任务实例及其对应的详细信息。

  • 支持复杂 DAG 调度任务的运行,支持多种任务节点的调度执行,支持任务终止,任务重跑等任务控制,支持查看调度日志,了解任务的执行情况。

  • 支持查询告警信息列表和告警详情,支持向钉钉群发送告警信息,支持重发告警信息。


随着中国快速推进数字经济建设,数据已经成为新型生产要素,大数据技术方案也在快速转向支撑业务的应用场景方案发展,数据开发平台成为推动企业数字化发展的法宝。

数据开发管控平台一站式解决了数据开发建模与数据资产运营,充分整合和管理企业各个系统全生命周期数据,真正帮助企业“唤醒”大数据、快速挖掘数据背后的价值,实现从数据资源到数据资产,综合提升企业的管理和运营能力。

用户头像

数造万象

关注

还未添加个人签名 2022-02-22 加入

还未添加个人简介

评论

发布
暂无评论
“唤醒”大数据价值,敏捷数据开发成为企业数字化发展的法宝_数造万象_InfoQ写作社区