如何降低大模型训练与推理计算成本，以确保它们在软件研发中的有效应用？

2024-11-27
北京
本文字数：749 字
阅读完需：约 2 分钟

目前大语言模型（简称：大模型）在提效整个研发流程中的应用，很多体现在编码和自动化测试两个场景。

对于常规的编码环节，其实并不需要用到大模型的训练或推理。目前国内外有不少成熟的代码生成工具，这些工具有免费版也有付费版，企业可以根据自身需求选择合适的工具，根据这些工具的官方报价估算成本即可。

除此之外，不少企业希望大模型能够生成和自身业务相关的代码，这就会涉及对大模型进行微调（Fine-Tuning），并部署微调后的大模型进行推理，才能帮助企业内部员工实现相关业务代码的生成。整个流程主要涉及到两方面的成本计算：

1、微调阶段：这个阶段主要考虑训练大模型需要多少算力，这里有个公式可以参考。通过这个公式计算出总算力，除以每个 GPU 的理论算力，再除以 GPU 的有效算力利用比例，就得到了所需的 GPU-Hours（单个 GPU 运行的小时数），最后根据自身情况选择合适的显卡。

大模型训练算力计算公式：训练总算力（Flops）= 6 * 模型的参数量 * 训练数据的 token 数

以 LLaMA2 70B 为例，根据官方提供的数据套用公式，最后得到训练所需 1.7M GPU-Hours（A100），要是用 1 个 GPU，那得算 200 年。如果想在一个月内训练出结果，就得至少有 2400 块 A100，所需成本就可根据显卡在当时的市场价格做估算。

2、推理阶段：推理的关键指标是速率和并发数，所以需要结合团队数量和性能需求考虑。以 AWS G5 类型 EC2 为例（NVIDIA A10G），最低配置的机型能够满足以下需求：1000 以内的 token，基础模型 6B 或 7B，每分钟支持的并发数大概在 7-12，响应时间 3-6 秒（注意：芯片算力一直在进步，此处为当时的测试数据），而单个此机型每月的费用为 700 美金左右。如果企业对并发有更高的要求，只需要增加 G5 实例的配置或数量即可。

本文整理自《研发效能100问》，原作者：谭欣亚马逊云高级解决方案架构师

发布于: 刚刚阅读数: 4

思码逸研发效能

关注

数据分析驱动研发效能 2022-04-12 加入

思码逸研发效能分析平台，致力于帮助研发团队解决效率、质量和人才三大痛点，提升研发效率与软件工程质量，助力每一位开发者创造更多价值。

发布

暂无评论

创作场景

如何降低大模型训练与推理计算成本，以确保它们在软件研发中的有效应用？

思码逸研发效能

评论