MoE
0 人感兴趣 · 3 次引用
- 最新
- 推荐
「混合专家模型」可视化指南:A Visual Guide to MoE
编者按: 对大语言模型进行扩展的过程中,如何在保持高性能的同时有效控制计算资源消耗?混合专家模型(MoE)作为一种新兴的架构设计方案正在得到越来越多的关注,但它究竟是如何工作的?为什么越来越多的大语言模型都在采用这种架构?
MoE 模型性能还能更上一层楼?一次 QLoRA 微调实践
编者按:最近,混合专家(Mixture of Experts,MoE)这种模型设计策略展现出了卓越的语言理解能力,如何在此基础上进一步提升 MoE 模型的性能成为业界热点。