写点什么

云原生场景下,如何缓减容器隔离漏洞,监控内核关键路径?

作者:OpenCloudOS
  • 2023-02-10
    广东
  • 本文字数:2024 字

    阅读完需:约 7 分钟


导读:OpenCloudOS 社区是由操作系统、软硬件厂商与个人共同倡议发起的操作系统社区项目,提供自主可控、绿色节能、安全可靠、高性能的下一代云原生操作系统,与生态伙伴一起打造中立的操作系统开源生态。作为社区重要的技术方向,OpenCloudOS 社区的云原生操作系统自研了一系列的云原生特性,本文主要介绍 CgroupFS 和 SLI。

一、CgroupFS 特性

​1、方案背景


容器的隔离主要是依赖 Linux 操作系统的 Namespace 和 Cgroup,与依赖硬件辅助虚拟化的虚拟机隔离不同,前者存在不少隔离漏洞。随着云原生场景的大规模使用,大量应用的容器化暴露出了容器隔离性问题。


特别是 /proc、/sys 文件系统中的一些资源统计信息,还没有完全的容器化,导致在物理机/虚拟机中的一些常用命令(比如 free/top)在容器中运行时,不能准确展示容器视角的信息,而是展示系统级别的全局信息。对于依赖这些系统信息运行的容器化应用,可能导致错误的运行结果甚至无法运行。

2、方案探索


业界目前普遍采用 lxcfs 的方案解决容器隔离漏洞问题。但是 lxcfs 方案有其固有的缺陷:


1)需要依赖额外的组件 lxcfs;


2)lxcfs 在用户态基于 FUSE 实现,开销相比内核更大;


3)lxcfs 稳定性比较差,可能在容器的生命周期状态切换时触发 hang、信息获取不到等问题。



每个 container 都需要对应一个 lxcfs 服务进程

3、方案实现


CgroupFS 方案基于内核态实现,其核心设计为,设计一个新的虚拟文件系统,其中包含需要实现的容器视角的 /proc、/sys 等 fs,其目录结构保持与全局 procfs 和 sysfs 一致,以保证对于用户工具的兼容性。实际读取相关文件时,通过 CgroupFS 的读者进程的上下文来动态生成对应的容器信息视图。以下内容基于 OpenCloudOS LTS 分支:


https://github.com/OpenCloudOS/OpenCloudOS-Kernel/commits/lts/5.4.119-20.0009
复制代码

4、方案实现效果


1)创建挂载点目录 /cgroupfs 挂载 cgroupfs:


mount -t cgroupfs cgroupfs /cgroupfs/
复制代码


2)容器启动命令如下:


docker run -itd --cpus 2 --cpuset-cpus 2,4 --memory="512m" --memory-swap="1g" -v /cgroupfs/sys/devices/system/cpu/:/sys/devices/system/cpu -v /cgroupfs/proc/cpuinfo:/proc/cpuinfo -v /cgroupfs/proc/stat:/proc/stat -v /cgroupfs/proc/meminfo:/proc/meminfo image-id /bin/bash
复制代码


容器启动后,会将 cgroupfs 下的文件 bind mount 到容器中对应位置。


3)运行实例


开启 CgroupFS 后,在容器中执行常用命令的效果:(容器规格:2 CPU,限定可用内存 512M,可用内存和可用 swap 总计 1G)容器内 proc 文件系统下显示 CPU 信息:



容器内 free 命令显示内存信息:



容器内 top 命令显示 CPU 个数信息::



容器内 nproc 显示 CPU 总数信息


二、SLI 特性

1、方案背景


在云原生场景大量应用运行都在容器化。但在高资源利用率场景下,容器也会存在问题。例如:容器间的互相干扰,容器资源限制引起的性能抖动等问题。目前 Linux 的系统性能指标,要么是基于进程级别的统计数据,要么就是基于全局的统计数据,这些都无法直观、有效的反应容器级别的性能问题。


OpenCloudOS 社区中的容器级别的性能跟踪机制——SLI,从容器的角度对 CPU、内存资源的竞争情况进行跟踪、观测,从而为容器性能问题的定位、分析提供可靠的指标。

2、方案探索



SLI 是一个常态化性能跟踪机制,需要对很多内核热点函数进行跟踪,这就要求 SLI 的实现必须是低开销的。此外,SLI 会使用很多内核核心函数,这些函数都无法被 eBPF 调用到。所以经过权衡,我们决定在内核里实现 SLI 机制,从而实现跟踪性能开销的最小化。


mbuf 特性


容器场景下,各个容器是相互独立的应用程序。由于不同容器在运行过程中,各自的资源使用情况、运行情况都不同,需要有一个独立的地方记录不同容器内核层面的异常日志信息,上层应用可以根据日志信息,直接定位到对应容器,从而进行合理的调度等操作;mbuf 就应运而生。事实上,mbuf 不仅仅可以应用在容器环境里,内核其他模块也可以根据自己的需求按照 mbuf 规范进行使用;


mbuf 的实现


1)内核启动时申请预留一段内存,该内存在伙伴系统之外。


2)设置支持最大的 items 数量;每个 item 是 mbuf 的使用单位,其本身会维护一个 ring 作为 ring buffer,确保循环使用而不会溢出。


3、方案实现



方案监控指标



4、方案效果


1)开启 SLI 的方式:


echo 1> /proc/sli/sli_enabled
复制代码


2)用户态周期性采集使用方式



3)mbuf 问题定位数据采集方式


需要首先使能 mbuf:


echo 1 > /proc/sys/kernel/qos_mbuf_enable
复制代码


触发堆栈保存到 mbuf 的阈值设置



获取 mbuf 中的堆栈信息:


cat /sys/fs/cgroup/cpuacct/<Pod A>/cpuacct.mbuf
复制代码


4)SLI 应用实例


下图是使用 SLI 监控 redis 容器内存干扰采集的数据。




从测试数据来看,每次直接回收的延时,都会对应一次 redis 的抖动。

三、小结

通过 OpenCloudOS 容器引擎内核支撑技术的全景图,可以看到 CgroupFS 和 SLI 都是重要的模块。



欢迎扫描下方二维码,加入社区用户群,了解 OpenCloudOS 最新动态,获取技术相关的支持,分享交流使用体验。



发布于: 刚刚阅读数: 5
用户头像

OpenCloudOS

关注

还未添加个人签名 2023-01-05 加入

还未添加个人简介

评论

发布
暂无评论
云原生场景下,如何缓减容器隔离漏洞,监控内核关键路径?_Linux_OpenCloudOS_InfoQ写作社区