写点什么

模型训练

0 人感兴趣 · 35 次引用

  • 最新
  • 推荐

基于 NVIDIA Megatron-Core 的 MoE LLM 实现和训练优化

本文将分享阿里云人工智能平台 PAI 团队与 NVIDIA Megatron-Core 团队在 MoE (Mixture of Experts) 大型语言模型(LLM)实现与训练优化上的创新工作。

TorchAcc:基于 TorchXLA 的分布式训练框架

阿里云研究员、阿里云人工智能平台 PAI 技术负责人--林伟在GTC 2024 大会 China AI Day 线上中文演讲专场上介绍了TorchAcc,这是一个基于 PyTorch/XLA 的大模型分布式训练框架。

https://static001.geekbang.org/infoq/e6/e678dca983e946f0c7127d1d2ad32208.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

OPPO 案例 | Alluxio 在 Data&AI 湖仓一体的实践

用户头像
Alluxio
03-22

在OPPO的实际应用中,将自研的Shuttle与Alluxio完美结合,使得整个Shuttle Service的性能得到显著提升,基本上实现了性能翻倍的效果。通过这一优化,我们成功降低了约一半的系统压力,同时吞吐量也直接翻倍。

https://static001.geekbang.org/infoq/1c/1cbe09c5e070bac2c9cbb03a2bfa2e18.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

数据本地性如何助力企业在云上实现高效机器学习

用户头像
Alluxio
03-22

本文将讨论数据本地性对于在云上进行高效机器学习的重要性。对比现有解决方案的利弊,并综合考虑如何通过数据本地性来降低成本和实现性能最大化。介绍新一代的Alluxio设计与实现,详细说明其在模型训练和部署中的价值。

【AAAI 2024】MuLTI:高效视频与语言理解

MuLTI,这是一种高度准确高效的视频和语言理解模型,可以实现高效有效的特征融合和对下游任务的快速适应。本文详细介绍基于MuLTI实现高效视频与语言理解。

https://static001.geekbang.org/infoq/f4/f424e28e0802ce81a3d4d4b4284547e2.jpeg?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

新增模型检验,指标自动评估模型效果|ModelWhale 版本更新

ModelWhale 将编程建模、模型训练、数据&算力管理等功能深度整合,通过逐级开放的基础设施,与 Jupyter Notebook 交互式、Canvas 低代码拖拽式、CloudIDE 三种即开即用的云分析环境,为研究者团队解决数据安全应用、底层工程繁复、研究成果流转困难等问题。

MegEngine 正式支持 XLA 啦!

用户头像
MegEngineBot
2023-12-13

XLA(Accelerated Linear Algebra)是 Google 提出的一个神经网络编译器,可以用于加速 AI 模型的训练和推理。MegEngine 1.13.1 中也已经支持了 XLA,在训练模型时可以选择开启此项功能,不同的模型可以获得 10%~80% 不等的速度提升。

训练集、验证集与测试集的划分策略

随着人工智能和机器学习的快速发展,如何有效地划分训练集、验证集和测试集成为了一个重要的问题。本文将详细讨论这些集合的划分比例,以及它们在机器学习过程中的作用和意义。

深度学习预训练模型的突破与发展

深度学习预训练模型在很多应用领域都表现出了优越的性能,如语音识别、自然语言处理和计算机视觉等。然而,对于这些预训练模型,一个问题一直困扰着研究人员和开发人员:预训练模型是否还需要进行额外的训练?

基于大模型训练的中文自然语言处理平台

随着人工智能技术的快速发展,自然语言处理(NLP)技术也日益受到关注。在众多NLP技术中,预训练模型作为一种有效的自然语言处理方法,被广泛应用于各种任务中。

大模型训练:数据与算法的关键融合

在今天的数字化时代,人工智能(AI)和机器学习(ML)领域已经变得至关重要。而Python,作为最受欢迎的编程语言之一,经常被用来进行各种AI和ML项目。这些项目需要使用特定的算法来分析数据并从中学习,而Python训练就是对这些算法的学习和实践。

https://static001.geekbang.org/infoq/70/705e86e27dc7d801f2b6a38ed3b77baa.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

预约直播 | 展心展力 MetaApp:基于 DeepRec 的稀疏模型训练实践

阿里云AI技术分享会第十一期《基于DeepRec的稀疏模型训练实践》将在2023年7月5日晚18:00开启直播,精彩不容错过。

https://static001.geekbang.org/infoq/cf/cff232382c71b09d09068b03badcdc04.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

字节跳动副总裁杨震原:好的 AI 基础设施,如何激发工程师创造力?

在 4 月 18 日的「火山引擎 2023 春季原动力大会」上,字节跳动副总裁杨震原发表了以《抖音的机器学习实践》为主题的演讲。

https://static001.geekbang.org/infoq/59/59c7cd12e07c7c0c09d3076db6e5acae.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

DSW-Gallery 使用体验 + 生成吸引人眼球的新闻标题

本文利用EasyNLP进行模型构建、训练、评估、预测生成中文新闻标题,介绍如何在PAI-DSW中使用EasyNLP

Lion : 超越 AdamW 的优化算法

用户头像
Zilliz
2023-03-23

优化算法,即优化器,在训练神经网络中起着基础作用。

模型训练过程中,混合精度训练稳定性解决方案

混合精确训练是训练现有大型基础模型的重要组成部分,但需要特别注意数值稳定性。了解模型的内部状态对于诊断模型何时遇到混合精度数据类型的限制非常重要。

MegEngine 使用小技巧:借助 DataLoader 获取分批数据

用户头像
MegEngineBot
2023-03-09

在使用 MegEngine 进行模型训练时,首先要进行的是数据加载和预处理。在此过程中,MegEngine 中的megengine.data模块,提供了数据分批功能,其内部实现流程如下图:

百度百舸·AI 异构计算平台,加速自动驾驶模型迭代

用户头像
Baidu AICLOUD
2023-01-05

数据访问性能提升了 5 倍,自动驾驶典型模型训练性能最高提升 391%,典型模型推理延迟最高降低了 90%,模型仿真成本降低了 60%。

先进工具,助力数据科学工作者快速调优丨和鲸科技 × Weights & Biases

用户头像
ModelWhale
2022-12-26

12月14日,和鲸科技与数据科学平台厂商 Weights & Biases 联合举办的目标识别类 Workshop 公益活动正式告一段落,这也标志着两家数据科学领域的杰出企业即将开启新的合作征程。

https://static001.geekbang.org/infoq/53/538cbd52064e17072fef7af754dd95eb.jpeg?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

一块 RTX 3090 加速训练 YOLOv5s,时间减少 11 个小时,速度提升 20%

用户头像
OneFlow
2022-12-09

虽然OneFlow的兼容性做得很好,可以很方便地移植YOLOv5并使用OneFlow后端来进行训练,但为什么要用OneFlow?能缩短模型开发周期吗?解决了任何痛点吗?本篇文章将尝试回答这几个问题。

阿里云大数据助力知衣科技打造 AI 服装行业核心竞争力

杭州知衣科技有限公司是一家以人工智能技术为驱动的国家高新技术企业,致力于将数据化趋势发现、爆款挖掘和供应链组织能力标准化输出,打造智能化服装设计的供应链平台。

构建 AI 原生的智能计算基础设施,百度百舸·AI 异构计算平台 2.0 发布

用户头像
Baidu AICLOUD
2022-09-08

百度百舸2.0发布,打造AI原生的云基础设施,加速产业拥抱智能化

https://static001.geekbang.org/infoq/a7/a7ac6ee41b139f9fdca9dd97745adb43.jpeg?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

大模型训练难于上青天?效率超群、易用的“李白”模型库来了

用户头像
OneFlow
2022-07-14

大模型对显存的需求增长远超过 GPU 显存增长的速度,根据 OpenAI 的报告,模型大小的增长速度是每 3.5 月翻一倍,而 GPU 显存则需要 18 个月才能翻倍。受限于 GPU 显存,单个 GPU 无法再容纳大规模模型参数。

https://static001.geekbang.org/infoq/3d/3d97656a2a3b0f1a0afcb4a1cda8bb39.jpeg?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

千亿参数“一口闷”?大模型训练必备四种策略

用户头像
OneFlow
2022-06-15

AI领域的许多最新进展都围绕大规模神经网络展开,但训练大规模神经网络是一项艰巨的工程和研究挑战,需要协调GPU集群来执行单个同步计算。随着集群数和模型规模的增长,机器学习从业者开发了多项技术,在多个GPU上进行并行模型训练。

https://static001.geekbang.org/infoq/fa/fa75daad5edd9d30eaac0d2514fa50db.jpeg?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

小布助手在面向中文短文本的实体链指比赛中的实践应用

实体链指是指对于给定的一个文本(如搜索Query、微博、对话内容、文章、视频、图片的标题等),将其中的实体与给定知识库中对应的实体进行关联。实体链指一般有两种任务设计方式:Pipeline式和端到端式。

https://static001.geekbang.org/infoq/42/42fc3710190bb1b06a66ced8dd785dd3.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

模型训练语料少?知识蒸馏解决烦恼

用户头像
LigaAI
2021-08-10

语料少?获取难?小语种的NLP研究如何推进……我们在一篇论文中发现了解决方法……

模型训练_模型训练技术文章_InfoQ写作社区