想做大模型开发前，先来了解一下 MoE

为了实现大模型的高效训练和推理，混合专家模型 MoE 便横空出世。

大模型发展即将进入下一阶段但目前仍面临众多难题。为满足与日俱增的实际需求，大模型参数会越来越大，数据集类型越来越多，从而导致训练难度大增，同时也提高了推理成本。为了实现大模型的高效训练和推理，混合专家模型 MoE 便横空出世。

MoE 结构的发展

Vanilla MoE

Export Network，用于学习不同数据，一个 Gating Network 用于分配每个 Expert 的输出权重。

Sparse MoE

Experts 的输出是稀疏的，只有部分的 experts 的权重> 0，其余=0 的 expert 直接不参与计算

Expert Balancing 问题

不同 experts 在竞争的过程中，会出现“赢者通吃”的现象：前期变现好的 expert 会更容易被 gating network 选择，导致最终只有少数的几个 experts 真正起作用

Transformer MoE

GShard

Transformer 的 encoder 和 decoder 中，每隔一个（every other）FFN 层，替换成 position-wise MoE 层
Top-2 gating network

Switch Transformer

简化了 MoE 的 routing 算法，gating network 每次只 route 到 1 个 expert

GLaM

MoE 结构和普通的 Dense 模型的差异在于，其需要额外的 AllToAll 通信，来实现数据的路由(Gating)和结果的回收。而 AllToAll 通信会跨 Node（服务器）、跨 pod（路由），进而造成大量的通信阻塞问题

MindSpore 的 MoE 优化

大模型训练主要瓶颈在于片上内存与卡间通信。常用的内存优化手段：

1）MoE 并行：将不同的专家切分到不同的卡上，由于 MoE 的路由机制，需要使用 AllToAll 通信，将 token 发送到正确的卡上。对 AllToAll 的优化：分级 AllToAll、Group-wise AllToAll 等。

2）优化器异构：大模型训练常使用的 adam 系列优化器，其占用的内存往往是模型参数本身的 2 倍或以上，可以将优化器状态存储在 Host 内存上。

3）多副本并行：将串行的通信、计算拆分成多组，组件流水，掩盖通信时间。

MindSpore 已使能上述优化，大幅提升了万亿参数稀疏模型的训练吞吐

Mixtral 的基础模型 Mistral

Mixtral

MoE Layer 的 MindSpore 实现

Mindformers 的 Mixtral 支持

基于 MindFormers 实现 Mixtral-8x7B MoE 模型。关键结构: GQA, RoPE, RMSNorm, SiluMoE 配置: 8 Experts, TopK=2, capacity c=1.1 加载开源的 Mixtral 权重和 tokenizer，推理结果对齐 HF.
4 机 32 卡 EP,PP 等多维混合并行，基于自有数据集试验性训练收敛符合预期。200 epoch loss 100.02