写点什么

DaaS 大数据服务简析

  • 2022 年 4 月 23 日
  • 本文字数:2434 字

    阅读完需:约 8 分钟

DaaS大数据服务简析

大数据技术可以有效地帮助企业整合、挖掘、分析其所掌握的庞大数据信息,构建系统化的数据体系,从而完善企业自身的结构和管理机制。同时,伴随消费者个性化需求的增长,大数据在各个领域的应用开始逐步显现,已经开始并正在改变着大多数企业的发展途径及商业模式。


基于大数据相关技术为企业应用提供数据的采集、加工处理,以及价值挖掘。大数据平台分为大数据存储服务、大数据计算服务、大数据综合治理、数据服务。

  • 大数据存储服务采用分布式存储(底层基于分布式文件系统)来保存海量数据的结构化数据与非结构化数据。

  • 大数据计算服务包含离线计算、实时计算、流计算、图计算等计算引擎。

  • 大数据综合治理包含大数据研发、数据集成平台、大数据运维、大数据模型、大数据管理和数据可视化。数据集成平台支持所有常见关系型数据库、NoSQL 及大数据仓库之间的数据传输;它是一种集数据清洗、转换、迁移、实时数据订阅及数据实时同步于一体的数据传输服务。大数据模型负责大数据仓库中的数据建模工作,主要将数据整理、分化为基础数据层、明细数据层、主题数据层、专题数据层。数据可视化负责以图形、报表的方式展示给使用者。

  • 数据服务负责将大数据层的业务结果以服务的方式发布出来,以提供给大数据分析的业务组件调用。


DaaS 数据服务主要包含大数据平台、数据资源池和数据集成平台。

大数据平台

大数据平台一般由离线计算、流式计算、实时计算、机器学习、数据开发、数据运维、数据管理、可视化报表工具和数据可视化工具等计算引擎和工具组成。

大数据计算平台提供完整的计算能力服务,包括离线计算、实时计算和流式计算三大计算引擎,以满足企业级应用多样化的数据处理需求。

1.离线计算

分布式离线计算是海量数据离线处理服务,针对 PB 级的数据,单表可达万亿条记录,适用于实时性要求不高的批量处理,主要应用于大型数据仓库、日志分析、数据挖掘和商业智能等领域,支持分布式 SQL,支持多种数据分析挖掘的分布式计算框架,内置大量数据挖掘和机器学习算法包。为了支持应用系统海量数据的建设,分布式离线计算系统具有 PB 级的存储处理能力和 PB 级的计算吞吐能力,支持多应用多实例并发同时计算并隔离应用数据和程序的能力,可以让多个用户在一套平台上协同工作。

2.实时计算

分布式实时计算则是一套实时联机分析处理(Online Analytical Processing,OLAP)系统,构建在分布式系统基础服务之上,是基于大规模并行处理(Massively Parallel Processing,MPP)架构并融合了搜索引擎索引技术的分布式实时计算系统。在数据存储模型上,采用自由灵活的关系模型存储,可以使用 SQL 进行自由灵活的计算分析,无须预先建模。分布式实时计算能够支撑较高并发查询量,并且通过动态的多副本数据存储计算技术来确保较高的系统可用性,因此能够直接作为面向最终用户的产品的后端系统。

3.流式计算

大数据流式计算为大数据计算平台建设提供流式数据处理能力,提供毫秒级至秒级的数据延迟处理服务,提供流式类 SQL 功能,支持流式数据写入和实时数据写出。流式计算是一个实时的增量计算平台,能提供类似于 SQL 的语言等计算模型完成增量式计算。其数据处理流程及核心模块构成如下。

  • 数据产生:生产数据发生源,通常服务器日志、数据库日志、第三方数据均是数据生产者,这份流式数据将作为流式计算的驱动源进入数据集成模块。

  • 数据集成:提供针对流式数据进行数据发布和订阅的数据总线。

  • 数据计算:流式计算通过订阅数据集成提供的流式数据,驱动流式计算的运行。

  • 数据存储:流式计算将流式加工计算的结果写入数据存储,包括关系型数据库、NoSQL 数据库、OLAP 系统等。

  • 数据消费:不同的数据存储可以进行多样化的数据消费。提供消息队列的数据存储可以用作告警、提供关系型数据库的数据存储可以提供在线业务支持等。

数据资源池

数据资源池的数据库包括业务库、专题库、模型库、知识库、训练库、日志库、事件库和测试库,构建各类专题数据库,从而更好地进行数据分析,为各类数据技术负责数据资源整理分类及业务库(结构化/非结构化数据)提供技术支撑。


作为一个海量数据离线处理与分析的平台服务,非结构化数据技术支撑平台融合了分布式存储与计算、分布式数据仓库以及云计算服务等先进技术和运营理念,以云计算服务的形式实现海量数据的分享与处理;专注处理实时性要求不高的海量数据(TB/PB 级)离线处理,应用于数据仓库构建、海量数据统计、数据挖掘和数据商业智能方面;支持 MapReduce 和类 SQL 的查询方式。


实时分析数据库服务是海量数据实时高并发在线分析计算服务,可以在毫秒级针对千亿级数据进行即时的多维分析透视和业务探索;具有对海量数据的自由计算和极速响应能力,能快速、灵活地探索数据,快速发现数据价值,并可直接嵌入业务系统为终端客户提供分析服务。


列数据库服务提供海量结构化数据的存储和实时访问。最高可支持单表百 TB 级数据规模,读写仅有毫秒级延迟,最高每秒查询率(Queries Per Second,QPS)可达十万级。以实例和表的形式组织数据,通过数据分片和负载均衡技术,实现规模上的无限扩展,还可以通过调用 API / SDK 或者操作管理控制台来使用列数据库服务。

数据集成平台

数据集成平台支持 RDBMS、NoSQL、OLAP 等数据源之间的数据迁移同步。它提供数据库不停服迁移、实时数据订阅及数据实时同步等多种数据传输方式。通过数据集成平台,可以在源数据库正常运行的情况下平滑地完成数据迁移。同时,还可以利用数据集成平台进行业务库实例间的数据实时同步,有效解决数据异地容灾、减少跨地区访问等业务问题。除此之外,数据集成平台还支持业务库实例增量数据实时订阅,通过数据订阅实现轻量级缓存更新、异步消息通知及定制化数据实时同步等业务场景。


数据集成平台提供对业务方数据库进行抽取和监控功能,能对数据源的数据资源进行统一清点,并能够在复杂的网络情况下对异构的数据源进行数据同步与集成,包括对关系型数据库、NoSQL 数据库、大数据数据库、FTP 等数据库类型的支持,支持离线数据的批量、全量、增量同步,支持以分钟、小时、日、周、月来自定义同步时间。


发布于: 刚刚阅读数: 5
用户头像

InfoQ签约作者 2018.11.30 加入

热爱生活,收藏美好,专注技术,持续成长

评论

发布
暂无评论
DaaS大数据服务简析_4月月更_穿过生命散发芬芳_InfoQ写作社区