探索高质量大模型训练平台建设路径——大模型训练标准第三次研讨会顺利召开

2024-09-20
北京
本文字数：1345 字
阅读完需：约 4 分钟

2024 年 07 月 31 日 16:26 北京

随着大模型技术的快速发展，大模型应用已经拓展到企业的研发应用、生产制造、经营管理等诸多环节，金融、制造、教育、交通等行业纷纷在探索大模型的落地场景。头部企业通过海量数据预训练构建超大参数规模的基座模型，大部分企业正在积极探索微调训练技术，使大模型更加适用于特定领域的业务应用。大模型训练平台作为支撑大模型应用落地的工程底座，已经成为产业积极探索和布局的重要阵地。在大模型训练过程中，如何构建微调语料库、选择微调方法、衡量训练效果，提升训练效果；如何通过计算优化、分布式优化、收敛性优化，提升训练效率；如何通过低代码能力、可视化能力、快速对接能力，提升训练易用性，都是大模型在训练开发过程中的难点。

目前，业界缺乏统一的标准来规范大模型开发训练的技术要求。为帮助企业提升大模型训练效果，降低大模型训练成本，推动大模型技术更广泛的应用落地，人工智能产业发展联盟 AI Infra 工作组联合业内五十余家企业启动了《面向大模型开发训练的软件平台技术要求》的标准研制工作。为了更好地推动后续工作，2024 年 7 月 26 日，中国信通院在线上召开了“《面向大模型开发训练的软件平台技术要求》第三次标准研讨会”，来自移动、蚂蚁集团、东方财富、海康威视、联通、星环科技、天数智芯、中债金科、启明星辰、电信、新华三、商汤科技、九章云极、浩鲸科技、渊亭科技等 51 家企业的 71 名专家代表参会，就大模型训练平台的标准内容进行了充分研讨。

会上，中国信通院人工智能研究所工程师刘星辰对大模型训练平台标准的编制背景及标准文稿进行了介绍。参会专家对大模型训练平台在训练准备、模型训练、训练评估阶段的技术能力进行了深入研讨。针对如何提升训练效率的问题，移动和中债金科的专家提出，会应用混合精度训练技术优化计算资源，利用 adafactor 技术减少显存占用，使用 flash attention 减少内存消耗，海康威视的专家提出应用 MoE 模型进行分布式训练。针对如何提升平台易用性能力，东方财富的技术专家提出应支持模型效果的可视化监控能力，启明星辰的专家提出宜集成训练过程管理的自动化工具。联通、星环科技、天数智芯、中债金科、商汤科技、浩鲸科技、渊亭科技等多名技术专家就训练平台应具备的技术能力要求展开了深入的研讨。

下一步，人工智能基础平台（AI Infra）工作组将基于会上专家的建议完善标准内容，后续也会持续推进大模型基础平台的相关标准化工作，诚邀各界专家共同参与。有意向的参与单位及专家欢迎电话或微信与我们联系。

业务联系人

刘老师 18610124860（微信同号）

liuxingchen@caict.ac.cn

董老师 15910462421（微信同号）

donghao@caict.ac.cn

- END -

AI 工程化推进委员会

2017 年 10 月初，工业和信息化部正式批复中国信息通信研究院承建人工智能关键技术和评测工业和信息化部重点实验室（以下简称“部重点实验室”）。中国信通院为进一步推动我国人工智能的工程化进程，依托部重点实验室成立了 AI 工程化推进委员会。委员会聚焦人工智能开发工具和平台，AI 研发运营和管理，大模型应用，知识计算应用和 AI 数据集治理等技术方向，以产业活动、研究报告、标准和评估、最佳实践等手段，推动人工智能工程化相关的工具、系统、流程和治理体系的完善。企业单位申请链接：

https://mp.weixin.qq.com/s/nZ_ZkBtk18lRyHuCkGEqCg

发布于: 刚刚阅读数: 4