jemalloc 思想的极致演绎：深度解构 Netty 内存池的精妙设计与实现

2025-10-23
广东
本文字数：2549 字
阅读完需：约 8 分钟

内存分配

Netty 内存池的核心设计借鉴了 jemalloc 的设计思想。jemalloc 是由 Jason Evans 在 FreeBSD 项目中实现的高性能内存分配器，其核心优势在于通过细粒度内存块划分与多层级缓存机制，降低内存碎片率并优化高并发场景下的内存分配吞吐量。Netty 基于 jemalloc 的多 Arena 架构实现内存池化，每个运行实例维护固定数量的内存分配域（Arena），默认数量与处理器核心数呈正相关。此设计通过多 Arena 的锁分离机制，将全局竞争分散到独立的 Arena 实例中。在高并发场景下，当线程进行内存分配时，仅需竞争当前 Arena 的局部锁，而非全局锁，从而实现近似无锁化的分配效率。线程首次执行内存操作时，通过轮询算法动态绑定至特定 Arena，该策略确保各 Arena 间的负载均衡。同时，Netty 采用线程本地存储技术，使每个线程持久化维护其绑定 Arena 的元数据及缓存状态。这种设计实现三级优化。1）无锁化访问：线程直接操作本地缓存的 Arena 元数据，消除跨线程同步开销；2）缓存亲和性：内存块在线程本地存储中形成局部缓存，提升处理器缓存命中率；3）资源隔离：各 Arena 独立管理内存段，避免伪共享问题。

内存规格

Arena 中的内存单位主要包括 Chunk、Page 和 Subpage。其中，Chunk 是 Arena 中最大的内存单位，也是 Netty 向操作系统申请内存的基本单位，默认大小为 16MB。每个 Chunk 会被进一步划分为 2048 个 Page，每个 Page 的大小为 8KB。Netty 针对不同的内存规格采用了不同的分配策略。1）当申请的内存小于 8KB 时，由 Subpage 负责管理内存分配；2）当申请的内存大于 8KB 时，采用 Chunk 中的 Page 级别分配策略；3）为了提高小内存分配的效率，Netty 还引入了本地线程缓存机制，用于处理小于 8KB 的内存分配请求。

Chunk 内部通过伙伴算法（Buddy Algorithm）管理多个 Page，并通过一棵满二叉树实现内存分配。在这棵二叉树中，每个子节点管理的内存也属于其父节点。例如，当申请 16KB 的内存时，系统会从根节点开始逐层查找可用的节点，直到第 10 层。

为了判断一个节点是否可用，Netty 在每个节点内部维护了一个值，用于指示该节点及其子节点的分配状态。1）如果第 9 层节点的值为 9，表示该节点及其所有子节点都未被分配；2）如果第 9 层节点的值为 10，表示该节点本身不可分配，但其第 10 层的子节点可以被分配；3）如果第 9 层节点的值为 12，表示该节点及其所有子节点都不可分配，因为可分配节点的深度超过了树的总深度。

Subpage

为了提高内存分配的利用率，Netty 在分配小于 8KB 的内存时，不再直接分配整个 Page，而是将 Page 进一步划分为更小的内存块，由 Subpage 进行管理。Subpage 根据内存块的大小分为两大类。1）Tiny：小于 512B 的内存请求，最小分配单位为 16B，对齐大小也为 16B。其区间为[16B, 512B)，共有 32 种不同的规格。2）Small：大于等于 512B 但小于 8KB 的内存请求，共有四种规格：512B、1024B、2048B 和 4096B。Subpage 采用位图（bitmap）来管理空闲内存块。由于不存在申请连续多个内存块的需求，Subpage 的分配和释放操作非常简单高效。例如，假设需要分配 20B 的内存，系统会将其向上取整到 32B。对于一个 8KB（8192B）的 Page，可以划分为 8192B / 32B = 256 个内存块。由于每个 long 类型有 64 位，因此需要 256 / 64 = 4 个 long 类型的变量来描述所有内存块的分配状态。因此，位图数组的长度为 4，分配时从 bitmap[0]开始记录。每分配一个内存块，系统会将 bitmap[0]中的下一个二进制位标记为 1，直到 bitmap[0]的所有位都被占用后，再继续分配 bitmap[1]，依此类推。在首次申请小内存空间时，系统需要先申请一个空闲的页，并将该页标记为已占用。随后，该 Subpage 会被存入 Subpage 池中，以便后续直接从池中分配。Netty 中共定义了 36 种 Subpage 规格，因此使用 36 个 Subpage 链表来表示 Subpage 内存池。

ChunkList

由于单个 Chunk 的大小仅为 16MB，在实际应用中远远不够，因此 Netty 会创建多个 Chunk，并将它们组织成一个链表。这些链表由 ChunkList 持有，而 ChunkLis 是根据 Chunk 的内存使用率来组织的，每个 ChunkList 都有一个明确的使用率范围。

ChunkList 的使用率范围是重叠的，例如 q025 的[25%, 50%)和 q050 的[50%, 75%)，两者在 50% 处存在重叠。这种重叠设计并非偶然，而是 Netty 为了优化内存管理而有意引入的。如果没有重叠区间，当一个 Chunk 的使用率刚好达到某个 ChunkList 的边界时，它会被立即移动到另一个链表中。例如：如果一个 Chunk 的使用率从 24.9%增加到 25%，它会从 q000 移动到 q025；如果使用率从 25%降低到 24.9%，它又会从 q025 移动回 q000。这种频繁的移动会导致额外的性能开销。通过引入重叠区间，Netty 可以避免这种频繁的移动。例如：在 q025 的范围为[25%, 50%) 时，即使 Chunk 的使用率降低到 25%，它仍然可以保留在 q025 中，直到使用率降低到 25%以下（即进入 q000 的范围）。同理，当 Chunk 的使用率增加到 50%时，它仍然可以保留在 q025 中，直到使用率超过 50% 才移动到 q050。

总结：从 I/O 到内存的协同进化

高性能网络架构的构建并非单一技术的堆砌，而是一个自底向上、层层递进的协同进化过程。1）核心矛盾：其根源在于，应用程序的数据处理需求与操作系统提供的底层 I/O 能力之间存在巨大的协作鸿沟。传统的阻塞 I/O 模型，正是这种鸿沟导致效能损耗的直接体现。2）调度权转移：I/O 模型的演进史，本质上是一部资源调度权的自底向上转移史。从应用层被动等待（阻塞 I/O），到将调度权交给内核（I/O 多路复用），再到内核主动完成全部工作（异步 I/O），系统的控制流越来越智能，资源利用也越来越高效。3）架构具象化：Reactor 模型通过职责分离和事件驱动，将这种高效的调度思想具象化为可落地的软件架构。主从 Reactor 模式将资源模块化，实现了流水线式的并行处理，使系统效能得以最大化。4）效率的终极追求：当 I/O 和线程模型优化到极致后，内存管理成为新的决胜点。内存池技术，特别是 Netty 的精细化设计，其核心思想是“用结构化预置取代随机化操作”。通过空间预占（预分配）和精准复用（多级缓存与规格匹配），它将高昂的动态内存操作，转化为低成本的确定性计算，使内存调度效率与硬件承载能力完美匹配。最终，当事件驱动降低了线程调度的微观成本，资源复用消除了内存管理的隐性消耗，而分层解耦提升了模块协作的宏观效率时，一个高吞吐、低延迟的健壮系统便水到渠成。这不仅仅是技术的胜利，更是对系统复杂性进行有序治理的架构智慧的体现。

很高兴与你相遇！如果你喜欢本文内容，记得关注哦

发布于: 刚刚阅读数: 3

原文链接:【http://xie.infoq.cn/article/85bfb654c954a67e13ee67933】。文章转载请联系作者。