模型训练
0 人感兴趣 · 35 次引用
- 最新
- 推荐
基于 NVIDIA Megatron-Core 的 MoE LLM 实现和训练优化
本文将分享阿里云人工智能平台 PAI 团队与 NVIDIA Megatron-Core 团队在 MoE (Mixture of Experts) 大型语言模型(LLM)实现与训练优化上的创新工作。
TorchAcc:基于 TorchXLA 的分布式训练框架
阿里云研究员、阿里云人工智能平台 PAI 技术负责人--林伟在GTC 2024 大会 China AI Day 线上中文演讲专场上介绍了TorchAcc,这是一个基于 PyTorch/XLA 的大模型分布式训练框架。
【AAAI 2024】MuLTI:高效视频与语言理解
MuLTI,这是一种高度准确高效的视频和语言理解模型,可以实现高效有效的特征融合和对下游任务的快速适应。本文详细介绍基于MuLTI实现高效视频与语言理解。
新增模型检验,指标自动评估模型效果|ModelWhale 版本更新
ModelWhale 将编程建模、模型训练、数据&算力管理等功能深度整合,通过逐级开放的基础设施,与 Jupyter Notebook 交互式、Canvas 低代码拖拽式、CloudIDE 三种即开即用的云分析环境,为研究者团队解决数据安全应用、底层工程繁复、研究成果流转困难等问题。
MegEngine 正式支持 XLA 啦!
XLA(Accelerated Linear Algebra)是 Google 提出的一个神经网络编译器,可以用于加速 AI 模型的训练和推理。MegEngine 1.13.1 中也已经支持了 XLA,在训练模型时可以选择开启此项功能,不同的模型可以获得 10%~80% 不等的速度提升。
训练集、验证集与测试集的划分策略
随着人工智能和机器学习的快速发展,如何有效地划分训练集、验证集和测试集成为了一个重要的问题。本文将详细讨论这些集合的划分比例,以及它们在机器学习过程中的作用和意义。
基于大模型训练的中文自然语言处理平台
随着人工智能技术的快速发展,自然语言处理(NLP)技术也日益受到关注。在众多NLP技术中,预训练模型作为一种有效的自然语言处理方法,被广泛应用于各种任务中。
大模型训练:数据与算法的关键融合
在今天的数字化时代,人工智能(AI)和机器学习(ML)领域已经变得至关重要。而Python,作为最受欢迎的编程语言之一,经常被用来进行各种AI和ML项目。这些项目需要使用特定的算法来分析数据并从中学习,而Python训练就是对这些算法的学习和实践。
预约直播 | 展心展力 MetaApp:基于 DeepRec 的稀疏模型训练实践
阿里云AI技术分享会第十一期《基于DeepRec的稀疏模型训练实践》将在2023年7月5日晚18:00开启直播,精彩不容错过。
DSW-Gallery 使用体验 + 生成吸引人眼球的新闻标题
本文利用EasyNLP进行模型构建、训练、评估、预测生成中文新闻标题,介绍如何在PAI-DSW中使用EasyNLP
模型训练过程中,混合精度训练稳定性解决方案
混合精确训练是训练现有大型基础模型的重要组成部分,但需要特别注意数值稳定性。了解模型的内部状态对于诊断模型何时遇到混合精度数据类型的限制非常重要。
MegEngine 使用小技巧:借助 DataLoader 获取分批数据
在使用 MegEngine 进行模型训练时,首先要进行的是数据加载和预处理。在此过程中,MegEngine 中的megengine.data模块,提供了数据分批功能,其内部实现流程如下图:
吞吐量最高提升 400%!百度智能云联合 NVIDIA 完成首批 17 个自动驾驶模型优化
最高 400% 的训练吞吐提升,训练时间缩短 80%
百度百舸·AI 异构计算平台,加速自动驾驶模型迭代
数据访问性能提升了 5 倍,自动驾驶典型模型训练性能最高提升 391%,典型模型推理延迟最高降低了 90%,模型仿真成本降低了 60%。
先进工具,助力数据科学工作者快速调优丨和鲸科技 × Weights & Biases
12月14日,和鲸科技与数据科学平台厂商 Weights & Biases 联合举办的目标识别类 Workshop 公益活动正式告一段落,这也标志着两家数据科学领域的杰出企业即将开启新的合作征程。
一块 RTX 3090 加速训练 YOLOv5s,时间减少 11 个小时,速度提升 20%
虽然OneFlow的兼容性做得很好,可以很方便地移植YOLOv5并使用OneFlow后端来进行训练,但为什么要用OneFlow?能缩短模型开发周期吗?解决了任何痛点吗?本篇文章将尝试回答这几个问题。
阿里云大数据助力知衣科技打造 AI 服装行业核心竞争力
杭州知衣科技有限公司是一家以人工智能技术为驱动的国家高新技术企业,致力于将数据化趋势发现、爆款挖掘和供应链组织能力标准化输出,打造智能化服装设计的供应链平台。
构建 AI 原生的智能计算基础设施,百度百舸·AI 异构计算平台 2.0 发布
百度百舸2.0发布,打造AI原生的云基础设施,加速产业拥抱智能化
大模型训练难于上青天?效率超群、易用的“李白”模型库来了
大模型对显存的需求增长远超过 GPU 显存增长的速度,根据 OpenAI 的报告,模型大小的增长速度是每 3.5 月翻一倍,而 GPU 显存则需要 18 个月才能翻倍。受限于 GPU 显存,单个 GPU 无法再容纳大规模模型参数。
千亿参数“一口闷”?大模型训练必备四种策略
AI领域的许多最新进展都围绕大规模神经网络展开,但训练大规模神经网络是一项艰巨的工程和研究挑战,需要协调GPU集群来执行单个同步计算。随着集群数和模型规模的增长,机器学习从业者开发了多项技术,在多个GPU上进行并行模型训练。