写点什么

给数据技术初学者:解读从数据编织到增强分析 20 个最新数据技术概念

作者:雨果
  • 2022 年 9 月 13 日
    北京
  • 本文字数:4263 字

    阅读完需:约 14 分钟

给数据技术初学者:解读从数据编织到增强分析20个最新数据技术概念

老板关心技术,经常会问一些技术的问题。


有次跟老板汇报大数据,记得当时介绍到了 NO SQL 数据库,然后老板问起数据库的发展历史,让我说说关系型数据库以前是什么数据库,为什么会演变成这样,我一时语塞。


还有一次跟老板汇报数据治理,老板问主数据是什么意思,我说主数据是为了确保各系统之间数据的一致性,然后发现自己答非所问。


造成以上现象有两个原因,第一个是我认为理解了某个概念,但实际上理解歪了或者不全面,另一个是虽然理解了概念,但却无法简洁而准确的表述,也就是说不到点上。


无论如何,我都不算是发挥失常,而是水平不够,这就是孔子说得学而不思则罔吧。


作为专业人士,还是要能用自己的语言把专业领域的概念通俗的说出来,如要具备这个能力,靠百度、谷歌搜索一下或者读读别人的文章是达不到的,必须建立在自身的实践和思考之上,从而形成一套自己的体系。


最近几年数据技术发展迅速,很多新概念爬上了 Gartner 曲线,比如数据湖、数据网格、数据编织啥的,这些概念中的很多是舶来品,理解起来不易,但我们有时也不得不去理解,一方面是技术决策的需要,另一方面是来自于解释的需要,否则容易被人带偏。


这次特意挑了数据网格、数据编织、湖仓一体、存算分离、DataOps 等 20 个数据领域比较前沿的、抽象的概念来挑战,希望尽量能用一句话解释清楚,后来发现实在讲不清楚,因此还是做了一些备注,文后列了参考文献。


我的解释也许不是很严谨,但希望能勉强的应对电梯挑战吧,想象那么一个场景,电梯里突然碰到你的老板,然后老板问:”最近有家做数据编织的 XX 公司要来拜访,那什么是数据编织?”


1、数据网格


一种分布式领域驱动数据集成服务架构,数据网格是分析系统的”微服务“。


2、数据编织


基于知识图谱(主动元数据为核心)的自动化智能化数据集成架构。


3、数据仓库


具备结构化数据采集存储离线处理分析能力的集中化平台,数据管理能力较强,比如在存储阶段即按预先定义好的格式写入平台,在使用的时候基于预定义的格式进行加工处理。


4、数据中台


基于沉淀的数据资产进行封装后对外提供数据服务(API 等形式)的平台。


5、数据湖


具备结构化、非结构化、半结构化数据采集、存储及离线处理能力的集中化平台,数据湖是原始数据的一份镜像,数据管理能力很弱,比如数据在存储阶段直接写入(不做格式规范),在应用需要的时候才进行数据格式的定义并进行加工处理。


6、湖仓一体


具备结构化、非结构化、半结构化数据采集存储共享实时处理实时分析数据管理能力的集中化平台,相比于数据湖,湖仓一体能支持实时分析场景,相比于数据仓库,湖仓一体能支持多类型数据的实时处理能力。


注 1:共享意味着针对各种类型数据可以互相访问,减少了搬迁成本。实时处理指支持实时的数据变更及事务处理能力,实时分析指诸如 BI 等可以直接对接数据源进行分析,不用迁移数据到数据仓库,数据管理能力指模型的管理等能力。


注 2:业界对于湖仓一体有两种实现模式,一种是横向打通方案,以阿里 M axCompute 为代表,主要是针对数据湖和数据仓库进行网络、存储及元数据的横向打通,具备保护原有投资的优势,另一种是纵向整合方案,以 Iceberg、Hudi 和 DeltaLake 为代表,其在数据湖之上构建数据仓库。


7、流批一体


流批一体是一种架构思想,指在满足流处理计算的同时也可以同步满足批处理任务的计算,这样不仅可以降低成本,也可以保证数据一致性,因为理论上任何流处理都可以看成间隔极短的批处理。


8、存算分离


针对传统 hadoop 架构中计算资源和存储资源按某一比例强绑定,系统扩容必须按节点数目增加,导致内存或磁盘浪费的问题,提出的一种新架构,其解耦了计算和存储绑定关系,实现计算和存储单独弹性扩展、按需分配,降低了系统部署和扩展成本,解决了资源利用不均衡的问题。


9、隐私计算


隐私保护计算技术能够实现数据处于加密状态或非透明(Opaque)状态下的计算,在保护参与方隐私的基础上,实现数据“价值”和“知识”的流动与共享, 真正做到“数据可用不可见”。隐私计算其实是一堆“数据可用不可见”技术集合,包括多方安全计算、联邦学习、机密计算、差分隐私及数据脱敏等等。


10、云原生数据仓库


云原生数据库是在公有云、私有云和混合云等新型动态环境中,基于存储与计算分离架构的、存储和计算可以独立弹性扩展的、松散耦合的数据仓库系统。


注:一般分为三个层次,最上层是服务层,主要做查询解析、优化、元数据管理,包括安全控制等等,中间层是查询计算层,可以分成多个小的集群,不同的用户可以使用不同的集群,类似于多租户的概念,这样就带来了高并发等好处,底下是存储层,包括对象存储、HDFS 等等,典型的产品包括 Snowflake、阿里的 AnalyticDB 等。


11、HTAP 数据库


HTAP 是对传统 OLTP+OLAP+ETL 的数据架构的替代,能够在一份数据上同时支撑 OLTP 和 OLAP 运行的数据库,可以在保证事务处理性能的基础上,同时具备实时分析的能力,不仅避免 ETL 跨平台数据传输带来的高昂成本,同时具备分布式、弹性扩容及高并发的能力。


12、DataOps


DataOps 是一种面向数据全生命周期,以价值最大化为目标的实践、流程和技术。聚焦于从数据需求输入到交付物输出的全链路过程,实现数据研发运营的一体化、敏捷化、标准化、自动化、智能化、价值显性化。


注:参考了信通院 DataOps 成熟度框架,相对于维基抽象的定义,增加了标准化、智能化等的阐述。


13、图计算


基于图数据进行的分析计算都属于图计算,图计算的核心在于图算法,常用的算法包括最短路径算法、PageRank、PageRank 等等。


注 1:图(Graph)是用于表示对象之间关联关系的一种抽象数据结构,使用节点(Vertex)和边(Edge)进行描述:顶点表示对象,边表示对象之间的关系。


注 2:图数据库(Graph Database)是一种以图结构进行存储和查询的数据库,相对于存储行列数据的关系型数据库,其在两个节点遍历的时候只需在这两个节点间局部数据进行检索,而关系型数据库则需要全局遍历,这使得以图结构存储的数据在涉及关系复杂的海量数据查询时速度有量级的提升。


14、增强分析


增强分析是指利用机器学习自然语言处理 (NLP) 等人工智能 (AI) 技术实现增强的分析。机器学习技术能够让系统自动执行数据准备自动分析深化洞察等复杂的分析流程,自然语言处理技术则支持用户(甚至是未经培训的业务用户)以会话形式提出数据问题,并轻松获取答案。


注:有种说法说传统分析自助分析增强分析是分析的三个阶段,但我对于增强分析还是一脸懵逼,因为我认为自动数据准备、自动分析和会话式分析过于理想化,只要自动的规则还是人定义的,姑且不说这个规则能否制定出来,但制定这个规则的代价实在太大了,以至于后面的自动化失去了意义,只有深化洞察是大家现在都在做的,也有很多案例。


自动执行数据准备:分析师 80% 的时间都是在准备数据,包括导出、合并、清理和结构化处理,增强分析内嵌的机器学习技术能够自动执行这一流程


自动分析:机器学习模型可以自动执行复杂的分析,数据科学家不再需要花费数周时间来做分析。用户可以即时获取查询答案和可视化数据内容,减少数据挖掘的时间,将更多精力用于解读数据洞察


深化洞察:机器解读数据的能力远超人类。与人类相比,机器不仅能够从更多角度审视更大的数据集,还能挖掘人类靠肉眼无法识别的统计相关性、关系和模式


会话式分析:自然语言处理技术支持不了解查询语言或代码的业务用户采用会话方式进行提问,自然语言生成 (NLG) 技术则能以完整的书面或口头语句,对分析结果进行汇总或解释,为用户提供答案


15、对象存储


由于存算分离等架构都会用到对象存储,因此特意解释下对象存储。对象存储是一种数据存储,其中每个数据单元(称为“对象”)作为离散单元存储。这些对象实际上可以是任何类型的数据:pdf,视频,音频,文本,网站数据或任何其他文件类型。


注:相对于文件存储,对象存储中的所有对象都存储在单个平面地址空间中,通过一个全局唯一的标识符(即对象的 ID)寻址(类似于键值管理),不需要像文件存储那样维护文件夹复杂的层次结构和丰富的元数据信息,意味着访问单个对象既快速又简单,而且具有极高的伸缩性,其缺点是由于简单的元数据无法维护每个对象的操作信息(比如保留修改、插入、删除文件中的某一小段数据而造成的复杂映射关系),导致没法像文件存储那样进行随意的增删改,比如网盘大多是对象存储,若要进行任何修改,只能把该对象对应的所有数据全部重新写入。


16、AutoML


AutoML 即为 Auto+ML,是自动化+机器学习两个学科的结合体;从技术角度来说,则是泛指在机器学习各阶段流程中有一个或多个阶段采取自动化而无需人工参与的实现方案,其覆盖了特征工程(Feature Engineering)、模型选择(Model Selection)、算法选择(Algorithm Selection)以及模型评估(Model Evaluation)4 个典型阶段,而仅有问题定义、数据准备和模型部署这三部分工作交由人工来实现。


17、AIOps


智能运维(AIOps,Artificial Intelligence for IT Operations)是指通过机器学习自动的从海量运维数据(包括日志、业务数据、系统数据等)中进行实时和离线分析来自动化 IT 运营流程,包括事件关联、异常检测、因果关系确定等。


18、数字孪生


数字孪生是物理对象的数字模型,该模型可以通过接收来自物理对象的数据而实时演化,从而与物理对象在全生命周期保持一致。基于数字孪生可进行分析、预测、诊断、训练等(即仿真),并将仿真结果反馈给物理对象,从而帮助对物理对象进行优化和决策。


19、Serverless


Serverless,又叫无服务器。Serverless 强调的是一种架构思想和服务模型,让开发者无需关心基础设施(服务器等),而是专注到应用程序业务逻辑上。Serverless 与 FaaS(函数即服务)通常被视为可以互换的术语,但这并不准确。Serverless 是一种抽象层次更高的架构模式,而“FaaS(函数即服务) + BaaS(后端即服务)”只是 Serverless 这种架构模式的一种实现。Serverless 一般具有免运维、免运维、按需付费及按需付费等特点,数据领域如统计、机器学习、流程处理等能力也可以封装成函数接口,从而具备更细粒度的按需使用和按需付费能力。


20、零信任


零信任是对传统网络边界保护方法的改进,指在公司网络内、外部均不设置安全区域或可信用户,而是将企业内、外部的所有操作均视为不可信任,依循“永不信任,一律验证“的原則。零信任提倡相互认证,包括在不考虑位置的前提下检查设备身份和完整性,以及基于设备身份和设备状况的置信度来结合用户身份验证,提供对应用程序和服务的访问许可。随着数据安全重要性凸显,零信任概念也逐渐被引入到数据安全技术体系。


文章来源:微信公众号“数据工匠俱乐部”

用户头像

雨果

关注

全球领先的DaaS厂商,构建下一代数据中台 2020.06.29 加入

500强集团中已有30多家选用;支持元数据管理,数据治理,数据开发,数据服务化,数据市场等功能; 免费下载试用官网地址:http://www.maicongs.com/#/home/probation

评论

发布
暂无评论
给数据技术初学者:解读从数据编织到增强分析20个最新数据技术概念_数据湖_雨果_InfoQ写作社区