DataOps(数据运维)指南 - 数据管理的新时代
【注】本文译自:https://dzone.com/articles/a-guide-to-dataops-the-new-age-of-data-management
DataOps 不仅仅是另一种开发方法。它通过民主化的访问和巨大的潜力从根本上改变了组织使用数据的方式。
最近一项关于企业面临的大数据挑战的调查揭示了一些有关数据利用的惊人事实。38% 的企业“缺乏”令人信服的商业案例来使用他们的数据。34% 的公司没有足够成熟的流程来处理大数据技术,其中 24% 的公司无法为最终用户提供大数据!
说这些发现令人震惊是轻描淡写。如果调查结果属实,那么很大一部分企业不知道他们可以做什么——他们必须做什么——利用他们拥有的数据,并继续从客户那里收集数据。与竞争对手相比,这使他们处于严重劣势。
在数据驱动的竞争格局中,忽视数据的好处,甚至无法充分发挥其潜力,对组织来说只会意味着灾难性的结局。可以肯定的是,其中许多组织正在收集大量数据。他们只是不想、不知道或没有适当的流程来使用它。
部分问题是遗留数据管道。随着数据在数据管道中从源移动到目标,每个阶段对数据的含义以及如何使用它都有自己的想法。这种不连贯的数据视图使数据管道变得脆弱且难以改变,从而使组织在面对变化时反应迟缓。
应对这一挑战的解决方案是 DataOps。
什么是 DataOps(数据运维)?
DataOps 是 data operationalization(数据操作化)的缩写,是一种协作数据管理方法,强调组织内数据管道的通信、集成和自动化。
与数据存储管理不同,DataOps 并不主要关注“存储”数据。它更关注“交付”,即让所有利益相关者都可以轻松获得、访问和使用数据。它的目标是创建可预测的数据、数据模型和相关工件的交付和变更管理,以便在整个组织和消费者中更快地交付价值。
DataOps 通过采用技术将数据的设计、部署、管理和交付自动化来实现这一目标,以改进其使用和提供的价值。这使所有使用数据的利益相关者都可以轻松访问数据,并加快数据分析的周期时间。
通过这样做,DataOps 大大提高了组织对市场变化的响应时间,并使他们能够更快地应对挑战。
DataOps 解决的挑战和问题
大数据最重要的承诺——快速且可靠的数据驱动的可操作业务洞察——仍未实现,因为存在众多挑战,这些挑战可大致分为组织、技术和人员(使用数据的人)的挑战。
DataOps 通过结合来自敏捷、DevOps 和精益制造方法的学习和实践,帮助克服这些挑战。以下是 DataOps 所要应对的最重要挑战:
速度
现代组织依赖(至少必须依赖)来自许多不同来源和许多不同形式的数据。清理、改进和使用数据可能是一个如此复杂和漫长的过程,以至于当最终从中产生洞察力时,它们与快速发展的业务环境不再相关。
DataOps 从根本上提高了从数据中获取洞察力的速度。
数据类型
有时,组织收集的数据可能是非结构化格式,这使得从中提取见解变得极其困难。此类数据源完全有可能甚至有可能为新兴业务挑战提供线索。因此,仅仅使用易于处理的结构化数据是不够的。
DataOps 使组织能够识别、收集和使用来自每个可用数据源的数据。
数据孤岛
DataOps 打破组织内的数据孤岛并集中所有数据。同时,它构建了弹性系统,为每个需要访问数据的利益相关者提供自助服务。这些系统随着组织内外的变化而发展,并且为“数据用户”提供了可预测的方式来查找和使用他们需要的数据。
DataOps 的业务优势
通过克服挑战,DataOps 使 DataOps 团队能够将数据交付给需要它的人——数据工程师、数据科学家、ML 工程师,甚至客户——并且速度比以前快得多。这一成就为数据驱动型企业带来了多项好处,其中包括:
最大限度地利用数据
DataOps 为所有数据“用户”解锁数据,无论是分析师、高管,还是客户。它使数据交付自动化,并在此过程中允许每个部门从数据中提取最大价值。 结果是提高了竞争力、对变化的响应能力和更高的投资回报率。
在正确的时间获得正确的见解
迄今为止,大数据的一个常见问题是在错误的时间获得正确的见解。来得太晚的见解是无用的。DataOps 将数据快速提供给需要它的每个人。因此,他们可以比以往任何时候都更快地做出更明智的决策,使组织能够快速发展以适应市场变化。
提高数据生产力
DataOps 使用自动化工具将数据交付作为自助服务进行操作。因此,消除了数据请求和数据访问之间的任何固有延迟,从而使所有团队能够迅速做出数据驱动的决策。
DataOps 还摆脱了手动数据管道变更管理流程的组织。相反,对数据管道的所有更改都经过简化和自动化,以提供快速、有针对性的更改。
针对结果优化的数据管道
DataOps 在数据管道中加入了一个反馈循环,允许各种数据消费者识别他们需要的特定数据并从中获得定制的见解。然后,每个团队都可以使用这些洞察来降低成本、发现新机会、增加收入并提高组织的盈利能力。
DataOps 的原则
在技术方面,DataOps 实现了组织最具开创性的里程碑之一——使他们的数据程序具有高度可扩展性,而不会影响数据分析的速度或质量。 因为它借鉴了 DevOps 的经验教训和实践,所以 DataOps 在许多关键方面与前者重叠。这在 DataOps 的三个基本原则中可见:
持续集成
DataOps 动态地识别、整理、集成和提供来自各种来源的数据。当团队为 DataOps 团队添加新数据源进行处理时,新数据会自动集成到数据管道中,并使用 AI/ML 工具提供给各个利益相关者。
由于自动化,从数据发现到数据管理、转换和洞察定制的所有内容都得到了完全简化。实际上,可以将数据以实时流的形式直接传输到预测算法,以便向用户尤其是消费者,提供实时的见解。
这种优化的数据集成过程可确保在数据发现和数据利用之间不会浪费时间。
持续交付
组织数据的价值取决于从中产生的见解。访问它的团队越多,从中提取的见解就越多。然而,数据可访问性也伴随着数据治理挑战。DataOps 在整个组织内实施数据治理,同时使数据可访问性民主化并增强其安全性和隐私性。
数据以协作方式有目的地交付给内部和外部数据消费者,同时符合内部数据质量和数据屏蔽规则。通常,使用“智能”数据平台来实现这一目标。当数据的质量、隐私和安全得到保证时,各种利益相关者可以使用它来获得准确的见解,而不必担心数据治理的影响。
持续部署
数字企业依靠一系列数据驱动的应用程序来实时做出功能决策,这对组织的未来具有深远的影响。关键任务功能,如欺诈检测、AI(人工智能)聊天机器人、销售、供应链管理等,需要随时可用的最新数据来进行决策。持续部署使所有用户都能无缝访问新数据。
DevOps 对比 DataOps
虽然 DataOps 借鉴了 DevOps 的知识和操作流程,但两者之间存在显著差异。列举如下:
人为因素
尽管 DataOps 参与者可能精通技术,但他们更专注于为数据用户创建算法、模型和视觉辅助工具。另一方面,DevOps 参与者是具有操作思维的软件工程师。
流程
DataOps 流程的特点是数据管道和分析开发编排,而 DevOps 流程几乎不涉及编排。
测试
与 DevOps 不同的是,DataOps 严重依赖数据屏蔽来进行测试,因此,测试数据管理变得至关重要。此外,DataOps 通常在部署之前在数据管道和分析开发过程中测试和验证数据。
工具
DevOps 拥有成熟的工具生态系统,尤其是测试工具。DataOps 是一种新方法,通常需要团队从头开始构建工具或根据其目的修改 DevOps 工具。
DataOps 平台的演进
在数据分析的早期,ETL(提取、转换、加载)工具成为管理大量(相对而言)传入数据的强大工具。然而,随着传入数据的多样性、准确性和数量激增,对可扩展性和高速数据分析的需求变得更加迫切。数据连接器固有的缺陷也被证明是一个限制因素。
云的出现将解决数据摄取、管理和分析的挑战。当 ETL 工具与云资源结合时,它加快了分析速度。然而,一个日益严峻的挑战仍然存在——数据可访问性。仅仅使用数据来产生见解是不够的; 每个人都应该能够获得这些见解。
于是,DataOps 诞生了!
DataOps 实现了数据访问的大众化。所有利益相关者都可以访问受组织数据治理政策约束的安全、高质量的数据,而不是少数人有权访问数据。
版权声明: 本文为 InfoQ 作者【信码由缰】的原创文章。
原文链接:【http://xie.infoq.cn/article/c6edf2e36c58001aa4c10ce9d】。
本文遵守【CC-BY 4.0】协议,转载请保留原文出处及本版权声明。
评论