写点什么

如何降低大模型训练与推理计算成本,以确保它们在软件研发中的有效应用?

  • 2024-11-27
    北京
  • 本文字数:749 字

    阅读完需:约 2 分钟

如何降低大模型训练与推理计算成本,以确保它们在软件研发中的有效应用?

目前大语言模型(简称:大模型)在提效整个研发流程中的应用,很多体现在编码和自动化测试两个场景。


对于常规的编码环节,其实并不需要用到大模型的训练或推理。目前国内外有不少成熟的代码生成工具,这些工具有免费版也有付费版,企业可以根据自身需求选择合适的工具,根据这些工具的官方报价估算成本即可。


除此之外,不少企业希望大模型能够生成和自身业务相关的代码,这就会涉及对大模型进行微调(Fine-Tuning),并部署微调后的大模型进行推理,才能帮助企业内部员工实现相关业务代码的生成。整个流程主要涉及到两方面的成本计算:


1、微调阶段:这个阶段主要考虑训练大模型需要多少算力,这里有个公式可以参考。通过这个公式计算出总算力,除以每个 GPU 的理论算力,再除以 GPU 的有效算力利用比例,就得到了所需的 GPU-Hours(单个 GPU 运行的小时数),最后根据自身情况选择合适的显卡。


大模型训练算力计算公式:训练总算力(Flops)= 6 * 模型的参数量 * 训练数据的 token 数


以 LLaMA2 70B 为例,根据官方提供的数据套用公式,最后得到训练所需 1.7M GPU-Hours(A100),要是用 1 个 GPU,那得算 200 年。如果想在一个月内训练出结果,就得至少有 2400 块 A100,所需成本就可根据显卡在当时的市场价格做估算。


2、推理阶段:推理的关键指标是速率和并发数,所以需要结合团队数量和性能需求考虑。以 AWS G5 类型 EC2 为例(NVIDIA A10G),最低配置的机型能够满足以下需求:1000 以内的 token,基础模型 6B 或 7B,每分钟支持的并发数大概在 7-12,响应时间 3-6 秒(注意:芯片算力一直在进步,此处为当时的测试数据),而单个此机型每月的费用为 700 美金左右。如果企业对并发有更高的要求,只需要增加 G5 实例的配置或数量即可。


本文整理自《研发效能100问》,原作者:谭欣 亚马逊云 高级解决方案架构师

用户头像

数据分析驱动研发效能 2022-04-12 加入

思码逸研发效能分析平台,致力于帮助研发团队解决效率、质量和人才三大痛点,提升研发效率与软件工程质量,助力每一位开发者创造更多价值。

评论

发布
暂无评论
如何降低大模型训练与推理计算成本,以确保它们在软件研发中的有效应用?_DevOps_思码逸研发效能_InfoQ写作社区