混合递归架构实现推理速度翻倍的技术解析
LLM 的扩展挑战
当前大语言模型的能力提升依赖参数规模增长,但随之而来的内存与计算需求使训练和部署成本激增。现有优化方案聚焦两类方法:
参数共享:如层权重复用技术,减少唯一参数数量以降低计算复杂度;
自适应计算:如早退机制,根据输入复杂度动态分配计算资源。
然而,二者高效结合的架构设计仍具挑战性。
混合递归架构原理
MoR 基于递归 Transformer 框架,通过两项创新实现效率突破:
轻量级路由器:类似混合专家模型(MoE)的机制,动态分配每个 token 的递归深度(即计算次数),仅对复杂 token 分配更多计算资源;
递归感知 KV 缓存:选择性存储活跃 token 的键值对,减少内存流量,无需训练后修改即可提升吞吐量。
性能验证
在 1.35 亿至 17 亿参数规模的测试中,MoR 展现出显著优势:
同等计算预算下,参数量减少 50%但少样本准确率提升 0.8%(43.1% vs 42.3%);
相同数据训练时,训练时间缩短 19%,峰值内存降低 25%;
推理阶段最大实现 2.06 倍加速,360M 以上参数模型性能持平或超越标准 Transformer。
企业落地路径
研究团队建议通过增量训练现有开源模型适配 MoR 架构,并强调开发者可通过调节递归步数平衡性能与效率。该框架具备多模态扩展潜力,未来可应用于视频、音频等场景的动态计算优化。
“MoR 为降低大模型计算与内存开销提供了有效路径。” —— 论文结论更多精彩内容 请关注我的个人公众号 公众号(办公 AI 智能小助手)公众号二维码
办公AI智能小助手
评论