写点什么

推理并发

0 人感兴趣 · 1 次引用

  • 最新
  • 推荐

如何定量分析 Llama 3,大模型系统工程师视角的 Transformer 架构

Llama 3 技术博客说 70B 模型、最长序列 8K、15T Tokens,训练了 640w GPU 时,这发挥了 H100 理论算力(989TFlops)的百分之多少?

推理并发_推理并发技术文章_InfoQ写作社区