如何降低大模型训练与推理计算成本,以确保它们在软件研发中的有效应用?
目前大语言模型(简称:大模型)在提效整个研发流程中的应用,很多体现在编码和自动化测试两个场景。
对于常规的编码环节,其实并不需要用到大模型的训练或推理。目前国内外有不少成熟的代码生成工具,这些工具有免费版也有付费版,企业可以根据自身需求选择合适的工具,根据这些工具的官方报价估算成本即可。
除此之外,不少企业希望大模型能够生成和自身业务相关的代码,这就会涉及对大模型进行微调(Fine-Tuning),并部署微调后的大模型进行推理,才能帮助企业内部员工实现相关业务代码的生成。整个流程主要涉及到两方面的成本计算:
1、微调阶段:这个阶段主要考虑训练大模型需要多少算力,这里有个公式可以参考。通过这个公式计算出总算力,除以每个 GPU 的理论算力,再除以 GPU 的有效算力利用比例,就得到了所需的 GPU-Hours(单个 GPU 运行的小时数),最后根据自身情况选择合适的显卡。
大模型训练算力计算公式:训练总算力(Flops)= 6 * 模型的参数量 * 训练数据的 token 数
以 LLaMA2 70B 为例,根据官方提供的数据套用公式,最后得到训练所需 1.7M GPU-Hours(A100),要是用 1 个 GPU,那得算 200 年。如果想在一个月内训练出结果,就得至少有 2400 块 A100,所需成本就可根据显卡在当时的市场价格做估算。
2、推理阶段:推理的关键指标是速率和并发数,所以需要结合团队数量和性能需求考虑。以 AWS G5 类型 EC2 为例(NVIDIA A10G),最低配置的机型能够满足以下需求:1000 以内的 token,基础模型 6B 或 7B,每分钟支持的并发数大概在 7-12,响应时间 3-6 秒(注意:芯片算力一直在进步,此处为当时的测试数据),而单个此机型每月的费用为 700 美金左右。如果企业对并发有更高的要求,只需要增加 G5 实例的配置或数量即可。
本文整理自《研发效能100问》,原作者:谭欣 亚马逊云 高级解决方案架构师
评论