华为云云原生 FinOps 解决方案，释放云原生最大价值

2024-04-29
广东
本文字数：4523 字
阅读完需：约 15 分钟

华为云云原生 FinOps 通过可视化的成本洞察和成本优化，帮助用户精细用云以提升单位成本的资源利用率，实现降本增效目标

企业上云现状：上云趋势持续加深，但云上开支存在显著浪费

根据 Flexer 2024 年最新的一项调查显示，当前有超过 70%的企业重度使用云服务，而这个数据去年是 65%。由此可见，越来越多的企业开始把业务部署在云上。企业在使用云厂商提供的云服务的同时，也在为云服务的花费买单。调查显示，平均大约有 30%的云成本支出被认为是无效支出。如何节省云成本支出成为近几年上云企业最关心的 Top1 问题。

企业云原生化逐步深入，成本治理依然存在挑战

云原生技术当前已经成为很多企业进行数字化转型的主流方式。kubernetes 提供的资源共享、资源隔离、弹性调度等能力，本身能够帮助企业提升资源使用率，降低企业 IT 成本。然而，2021 年 CNCF《FinOps Kubernetes Report》的调研报告显示，迁移至 Kubernetes 平台后，68%的受访者表示所在企业计算资源成本有所增加，36%的受访者表示成本飙升超过 20%。其背后的原因值得深思。

云原生时代成本治理面对的挑战

云原生时代成本治理有四个矛盾点：

业务单元 VS 计费单元：一般云服务（比如 ECS）的计费周期比较长，可能是包月或者包年；而云原生容器的生命周期相对比较短暂，容器的弹性伸缩、故障重启等动作，都有可能导致资源的闲置率比较高。
容量规划 VS 资源供给：容量规划一般是静态的，一般是按照预算或者规划提前准备容器，而资源供给是业务来驱动。业务的高峰流量冲击，升级扩容等场景，都会对容量规划造成很大的挑战。
统一治理 VS 多云部署：现在很多企业使用了不止一朵云，不同的云厂商的账单接口和格式都不一样，不利于企业的多云统一成本治理。
成本模型 VS 云原生架构：云厂商的成本模型相对比较简单，一般是按照物理资源来计费，比如 ECS 服务是以整机的价格来计费。云原生架构以应用为中心，资源的申请细化到 CPU/内存等粒度。这就导致云原生场景成本可视化和成本分析比较困难。

总结下来，云原生成本治理面临三大挑战：

成本洞察：云原生场景如何实现成本可视化，如何快速定位成本问题、识别资源浪费？

成本优化：云原生成本优化的手段很多，如何采用合适的成本优化手段来实现收益最大化？

成本运营：企业如何构建可持续的成本治理体系与文化？

华为云云原生 FinOps 解决方案

FinOps 是一门将财务管理原则与云工程和运营相结合的学科，它使组织更好地了解其云支出。它还能够帮助他们就如何分配和管理云成本做出明智的决策。 FinOps 的目标不是节省资金，而是通过云实现最大化的收入或业务价值。它有助于组织控制云支出，同时保持支持其业务运营所需的性能、可靠性和安全性级别。

FinOps Foundation 将 FinOps 定义为三个阶段：通知、优化和运营。根据每个团队或企业完成 FinOps 的进度，公司可能会同时处于多个阶段。

通知（成本洞察）：通知是 FinOps 框架的第一阶段。这一阶段旨在为所有利益相关者提供所需的信息，以便于他们了解情况，从而做出有关云使用的经济高效的明智决策。

成本优化：成本优化重点是想方设法节约成本。根据当前使用情况，您的组织可以在哪些方面合理调整资源规模，并从折扣中受益？

成本运营：成本运营是 FinOps 框架的最后一个阶段。在这一阶段，组织会根据业务目标持续评估绩效，然后想方设法改进 FinOps 实践。优化工作到位后，组织可以借助自动化来实施策略，在不影响性能的情况下不断调整云资源来控制成本。

华为云云原生 FinOps 解决方案，参照业界 FinOps 标准与最佳实践，为用户提供云原生成本多维可视化与多种成本优化治理手段，协助客户最大化的收入或业务价值。

云原生 FinOps - 成本洞察

华为云云原生 FinOps 成本洞察，提供如下关键特性：

1、基于标签的资源成本归属

支持 ECS、EVS 等资源关联集群标签，便于集群费用汇总计算

2、基于 CBC 账单的精准成本计算

基于 CBC 真实账单进行成本分摊计算，精准划分部门成本

3、灵活的成本分摊策略

支持集群、命名空间、节点池、应用、自定义等多种维度的成本可视化与成本分摊策略。

4、支持长期的成本数据存储与检索

最大支持长达 2 年的成本分析，支持月度，季度，年度报表及导出。

5、工作负载快速感知，轻松应对快速弹性场景

针对应用快速弹性场景，支持分钟级的负载发现与计费能力，让所有成本无一遗漏。

云原生成本洞察的实现机制介绍：

1、集群物理资源成本 VS 集群逻辑资源成本

集群的成本可以从两个角度来计算：

集群物理资源成本，包括集群直接或间接关联的资源成本，比如集群管理费、ECS 成本、EVS 成本等。集群的物理资源成本可以从云成本账单中直观的体现出来。
集群逻辑资源成本，从 kubernetes 资源的角度，集群的成本包括工作负载的成本，再加上集群闲置资源成本和公共开销成本。

不难看出，集群物理资源成本=集群逻辑资源成本。

2、单位资源（CPU/内存等）成本计算

在集群的物理资源成本已知的情况下，如何推导出集群逻辑资源成本（如 pod/工作负载），是云原生 FinOps 成本洞察的关键。这里核心要解决的问题是单位资源成本计算的问题。我们知道，一般的云虚拟机是按照整机的价格去售卖的，不会按照单位 CPU 或内存售卖。但是容器服务的资源占用是按照单位资源（CPU 或内存等）来申请的。所以必须计算出单位资源的成本，才能最终计算出容器服务占用的成本。

一般云厂商单位 CPU 或内存的价格会有一个估算值，我们也可以按照 CPU 和内存的成本占比来计算单位资源成本。

3、云原生资源成本计算

从下图我们可以看出，一个 Pod 的资源使用是随着时间动态波动。有些时刻 Pod 的资源占用低于资源申请（Request），有些时刻 Pod 的资源占用大于资源申请（Request）。在计算 Pod 成本时，我们会定时采样 Pod 的实际使用值和 Request 值，并将实际使用值和 Request 值中的最大值用于 Pod 的成本计算。这是因为一旦 Request 值分配给 Pod，那么这不是资源会被 K8S 预留，不会被其他 Pod 抢占。所有 Pod 需要为 Request 部门的资源买单。同理，如果 Pod 的实际使用量大于 Request，那么这个 Pod 也需要为超出的部分买单。