写点什么

享受云原生技术红利,大数据不应该被落下

作者:智领云科技
  • 2023-07-17
  • 本文字数:3236 字

    阅读完需:约 11 分钟

享受云原生技术红利,大数据不应该被落下

2021 年 8 月,Databricks 获得了 16 亿美元 H 轮融资,距离 10 亿美元的 G 轮融资刚过去 7 个月,这一轮融资之后,Databricks 身价达到 380 亿美元,成为一家超级独角兽。


Databricks 是一家大数据软件公司,提供用于数据集成、数据清洗、数据管理以及其他基于 Spark 的云服务。Databricks 的成功给在大洋彼岸的众多中国创业者极大的信心,智领云 CEO、联合创始人彭锋正是其中之一。


Databricks 在数据层面的工作给予了彭锋很大的鼓励,多年在 Twitter、Ask.com 等硅谷公司从事大数据工作的他也非常看好 Databricks。2016 年彭锋从美国硅谷归来,创立了智领云,主要提供大数据相关产品和服务。


在 Databricks 大获成功的同年 5 月,智领云对产品进行了优化升级,加入了对 Kubernetes 的支持,推出了基于开源技术的云原生数据平台 Kubernetes Data Platform(简称 KDP),大大简化大数据应用的部署,为大数据应用拥抱云原生技术铺平了道路。这是一个创新同时也是大胆之举,开源的大数据组件繁多,技术门槛很高,而 Kubernetes 也以复杂著称,当大数据遇到 Kubernetes,挑战可想而知。为何要推出这样一个平台?在如此复杂的状况下,智领云是如何推出一款可靠、易用的平台?彭锋对这些问题进行了解答。


云原生大数据平台来袭


毫无疑问,云原生是技术的发展趋势。由于云原生支持快速部署、具有跨平台能力等诸多优势,近年来得到快速普及。根据 CNCF 2022 的调查报告,有 44%的组织已经在企业的生产环境中规模化部署云原生技术,35%的组织在生产环境中部分部署,没有尝试云原生技术的企业现在已经不到 10%。


在拥抱云原生技术的过程中,不同类型应用的进展是不同的,其中无状态的应用(如 Web 服务)在云原生的路上走得最早,而有状态的应用(如数据库、大数据)则相对慢一些。背后的原因在于早期 Kubernetes 对于数据库和大数据这些有状态应用的支持不太好。


“但这个趋势是一定的,不管是有状态的 Web 应用还是无状态的数据库和大数据应用最终都会云原生化。”彭锋表示。


驱动这一趋势的正是云原生技术带来的诸多好处。一旦企业实现了部分业务云原生化,尝到了云原生技术的甜头之后,让数据平台实现云原生化也成了顺理成章的事情。彭锋认为,实现大数据平台在 Kubernetes 上运行有四个好处:


第一,统一管理。所有的工具都是统一的,所有的策略调度也都是统一的。


第二,资源的高效利用。以前,大数据平台和其他业务平台的资源是各自独立的,两个都要预留资源。现在资源统一混排,资源可以实现共享,大大提高了资源的利用率。


第三,弹性扩展。传统大数据平台主要依赖人,扩展时也需要人参与。现在可以借助 Kubernetes 的能力实现自动部署和扩容。


最后,简化运维,提升整个系统的稳定性。因为所有的应用都在 Kubernetes 上,那些在 Kubernetes 上开发的运维工具,在大数据应用中也可以用。


彭锋介绍,智领云 KDP 是目前市场上第一款公开的完全基于 Kubernetes 搭建的容器大数据平台,也是首个真正的 Kubernetes 云原生大数据平台。这里之所以强调“真正”二字,是因为 KDP 中的所有组件,都通过容器进行了重构,并纳入 Kubernetes 的标准管理体系。


为什么是现在?


当前,Kubernetes 已经成为了云计算事实上的标配,也成为了云原生的最佳拍档,因此,加入对 Kubernetes 的支持,对产品进行升级,使得 KDP 成为了市场上首个可完全在 Kubernetes 上部署的容器化云原生大数据平台,这其实是顺应了技术的发展趋势。而真正支持智领云这样做的原因其实有两方面,首先,是 Kubernetes 对有状态应用的支持越来越成熟,很多数据库和大数据软件开始支持 Kubernetes。特别是进入 2021 年,大数据领域出现了两件标志性事件,先是 2021 年 3 月 Apache 的 Spark 支持 Kubernetes,随后的 5 月 Kafka 也公开支持 Kubernetes,这意味着最核心的大数据组件现在都支持 Kubernetes。


其次,是 Kubernetes 的接受程度已经达到了“比较适合在 Kubernetes 上做大数据的阶段”,目前已经有很多头部客户比较迫切地在寻找这样的解决方案。


当然,KDP 支持所有主流的开源大数据组件,比如 HDFS、Hbase、Spark、Flink、Kafka 等,企业可以根据自己的需要选用这些组件。彭锋介绍说,智领云所做的一个重要工作是在 Kubernetes 和这些开源组件之间建立起了一个统一的中间层,打通了各个组件的联系,实现各个组件统一的管理和调度。


这件事做起来并不容易,尤其是在大数据组件标准化、统一资源管理,以及在 Kubernetes 环境中运行所有工作负载都是比较复杂的工作。比如要打通 Hadoop、Hive、Spark 之间的用户,在传统大数据平台上都需要复杂的手工配置,而现在,基于 Kubernetes 的 KDP 可以轻松打通用户管理,实现标准化,新组件只要一接入,就可以跟现有的系统方便地进行通讯。


彭锋解释说,智领云实际上做的是一个中间的管理层。这个中间管理层在此之前之所以难做,是因为 Hive、Sprk、Kafka……都有自己的发布方式,大数据组件不标准,要实现统一管理非常困难。而现在在 Kubernetes 的支持下,所有发布管理方式都得以标准化,这也让构建一个中间管理层成为可能,而 KDP 就相当于一个中间管理层,打个比方,大家一定用过 Windows 的资源管理器,KDP 就像是大数据组件的资源管理器,将所有大数据组件管理起来,让用户能够更加方便地使用,从而大大提升系统运行效率,降低运维成本。 

KDP 管理界面图


具体而言,KDP 能够标准化配置管理,即采用统一的 Kubernetes 文件配置方式,对大数据组件进行标准化的配置管理,简化大数据组件与 Kubernetes 集群的集成;实现资源高效利用,集群资源作为一个可共享的资源池,实现实时、离线作业的混部,集群资源利用率相较于传统大数据平台的 30%提升到 60%;弹性扩展,利用 Kubernetes 的弹性扩容技术,从容应对计算作业的性能瓶颈,实现计算资源及集群资源的动态扩容;简化运维,基于 Kubernetes 标准的 Operator 操作方式,统一运维界面完成大数据组件的部署、升级、扩容、备份等操作,提升运维效率。


KDP 恰逢其时


很长时间以来,Hadoop 一直是大多数企业的首选大数据平台。随着 Hadoop 日渐式微,特别是 Cloudera 宣布不再继续维护和升级自己的 Hadoop 版本 CDH 和 HDP 之后,大数据平台呈现多样化的特性,这给用户的选择带来一定困扰。再叠加大数据技术本身的复杂性,特别是基于开源的大数据平台,每个开源的组件都有自己的安装流程和运维机制,其安装和运维都对技术人员有着很高的要求,要把这些组件搬到 Kubernetes 上面临相当大的挑战。


用户的痛点也正是创业者的机会。作为一家根植于大数据市场的创新型公司,当很多人还在担心这项技术的成熟性时,智领云顺应技术趋势,打造云原生的大数据平台,这一步迈得可谓大胆且坚决。


彭锋说,和市场的其他大数据平台产品相比,智领云的大数据平台 KDP 的最大亮点是,可完全在 Kubernetes 上部署的容器化云原生大数据平台,将大数据组件及数据应用纳入 Kubernetes 管理体系,标准化系统管理;同时,KDP 快速且易于与客户现有的各种系统和架构进行对接和适配。


“我们不是要给企业提供一个独立的大数据技术架构或者基础能力,而是给企业现有的开发数据平台上添加数据能力,这更轻量,也更符合云原生容易融合统一管理的发展趋势。”彭锋表示。


智领云 KDP 推出以后,受到了市场头部客户的积极响应。彭锋说,未来 KDP 会开源,走上以咨询和服务收费的模式。他的目标是通过 KDP 让更多的企业把数据平台迁移到 Kubernetes,同时提供企业级安全、企业级的运营管理以及企业级的开发工具支持,最后把 KDP 变成一个解决方案的发布平台。


“如果这个平台的使用量足够大,我们可以为用户提供半成品的 AI 模块和大数据模块,用户可以通过很简单的方式,把 AI 和数据的能力组合成他们需要的业务应用,这是我们的终极目标。”彭锋说。


当下,大数据应用向云原生平台迁移的趋势也十分明显。根据 Gartner 的预测,部署在云原生平台上的数据应用将由 2021 年的 30%增长到 2025 年的 95%,也就是说到 2025 年,95%的数据应用都会运行在云原生平台上。CNCF 的调查数据也佐证了这一趋势。根据 CNCF 2022 年的市场调查,71%的组织在 Kubernetes 中使用数据库,同比增长 48%;35%的组织使用大数据,同比增长 36%。从这些数据上看,智领云 KDP 可谓恰逢其时。


用户头像

连接数据,驱动未来 2020-08-17 加入

智领云专注于大数据、云计算领域的核心技术研发,为企业级客户提供云原生数据中台系统解决方案,快速实现数据价值,降本增效,助力企业数字化转型,在激烈的市场中获得竞争优势。

评论

发布
暂无评论
享受云原生技术红利,大数据不应该被落下_云原生_智领云科技_InfoQ写作社区