写点什么

一块 GPU 搞定 ChatGPT;ML 系统入坑指南;理解 GPU 底层架构

作者:OneFlow
  • 2023-02-27
    重庆
  • 本文字数:3270 字

    阅读完需:约 11 分钟

一块GPU搞定ChatGPT;ML系统入坑指南;理解GPU底层架构

1. 跑 ChatGPT 体量模型,从此只需一块 GPU

 

在发展技术,让大模型掌握更多能力的同时,也有人在尝试降低 AI 所需的算力资源。最近,一种名为 FlexGen 的技术因为「一块 RTX 3090 跑 ChatGPT 体量模型」而获得了人们的关注。

 

虽然 FlexGen 加速后的大模型看起来仍然很慢 —— 跑 1750 亿参数的语言模型时每秒 1 个 token,但令人印象深刻的是,它已经把不可能变成了可能。传统上,大型语言模型(LLM)推理的高计算和内存要求使人们必须使用多个高端 AI 加速器进行训练。本研究探索了如何将 LLM 推理的要求降低到一个消费级 GPU 并实现实用性能。


链接:

https://mp.weixin.qq.com/s/ZdW_jZov3bAcGc_9SqiL-A

 

2. ChatGPT数据集之谜

 

至今,OpenAI 并没有公开 ChatGPT 的相关训练数据集来源和具体细节,一定程度上也暂时卡了追赶者的脖子,更何况,业界公认中文互联网数据质量堪忧。本文作者则整理分析了 2018 年到 2022 年初从 GPT-1 到 Gopher 的相关大型语言模型的所有数据集相关信息,希望帮助有志于开发“类 ChatGPT”模型的团队少走一步弯路。


链接:

https://mp.weixin.qq.com/s/9vOc-OyqvzrO_w5LApurbg

 

3. ChatGPT背后的经济账

 

ChatGPT 能否取代 Google、百度这样的传统搜索引擎?为什么中国不能很快做出 ChatGPT?当前,对这些问题的探讨大多囿于大型语言模型(LLM)的技术可行性,忽略或者非常粗糙地估计了实现这些目标背后的经济成本,从而造成对 LLM 的开发和应用偏离实际的误判。

 

本文作者从经济学切入,详细推导了类ChatGPT模型搜索的成本、训练 GPT-3 以及绘制 LLM 成本轨迹的通用框架,为探讨 LLM 成本结构和其未来发展提供了可贵的参考视角。


链接:

https://mp.weixin.qq.com/s/aAg1ptEkQ6ahdjs-3s_g3A

 

4. 解读 ChatGPT 背后的技术重点:RLHF、IFT、CoT、红蓝对抗

 

近段时间,ChatGPT 横空出世并获得巨大成功,使得 RLHF、SFT、IFT、CoT 等这些晦涩的缩写开始出现在普罗大众的讨论中。这些晦涩的首字母缩略词究竟是什么意思?为什么它们如此重要?我们调查了相关的所有重要论文,以对这些工作进行分类,总结迄今为止的工作,并对后续工作进行展望。


链接:

https://zhuanlan.zhihu.com/p/602458131

 

5. 为什么所有 GPT-3 复现都失败了?使用 ChatGPT 你应该知道这些

 

为什么所有公开的对 GPT-3 的复现都失败了?我们应该在哪些任务上使用 GPT-3.5 或 ChatGPT?对于那些想要复现一个属于自己的 GPT-3 或 ChatGPT 的人而言,第一个问题是关键的。第二个问题则对那些想要使用它们的人是重要的(下文提到 GPT-3,主要是指 GPT-3.5 或 InstructGPT 的最新版本,除了一些指向 GPT-3 原文的情况)。


链接:

https://mp.weixin.qq.com/s/fWe9RtP8qe8uxMSukeAjKA

 

6. 超越 GPT 3.5 的小模型来了

 

众所周知,ChatGPT 是在 GPT-3.5 系列模型的基础上微调而来的,我们看到很多研究也在紧随其后紧追慢赶,但是,与 ChatGPT 相比,他们的新研究效果到底有多好?近日,亚马逊发布的一篇论文,他们提出了包含视觉特征的 Multimodal-CoT,该架构在参数量小于 10 亿的情况下,在 ScienceQA 基准测试中,比 GPT-3.5 高出 16 个百分点 (75.17%→91.68%),甚至超过了许多人类。


链接:

https://mp.weixin.qq.com/s/gv_FJD0aIpDNbky54unj2Q

 

7. 聊聊对大模型的一些看法

 

外行看热闹,内行看门道。逻辑链的把握,对长程上下文的捕捉和适应,以及生成语句的通顺度,这几点在作者试验过的大量的 case 里都得到了验证,于是对于大模型这个技术方向"现实上的怀疑"也开始被打消了。

 

链接:

https://zhuanlan.zhihu.com/p/607680446

 

8. 一文理解大型语言模型的“上下文学习”

 

最近几年大语言模型(LLM) 获得了越来越多的关注,其中最知名的当属 ChatGPT 模型。ChatGPT 模型展现了一些大模型才具备的突现能力(就是模型规模必须得增大到一定程度才会显现的能力,比如至少百亿级),其中一项能力就是上下文学习(In-Context Learning)。这也引发了研究人员对该能力产生原因的思考和探索。


链接:

https://mp.weixin.qq.com/s/sTTRl7QPyFDYVw4Jwzn9dQ

 

9. 理解 GPU 的底层架构

 

笔者是新进 GPU 行业从业者,之前在 CPU 芯片行业做一些底层软件驱动开发工作,深知熟悉 CPU 的底层结构原理对驱动编写和阅读他人驱动代码大有裨益,本文则介绍了 GPU 的底层工作原理。


链接:

https://zhuanlan.zhihu.com/p/598173226

 

10. ML System 入坑指南

 

最近 ChatGPT 大火,越来越多开始关注大模型,但对于大模型落地,除了先进的算法,其背后的 ML System(机器学习系统),从分布式训练到高效推理的完整链路同样重要,好的基础设施是应用爆发的基础。本文主要围绕作者学习的经历来构筑,希望能给希望入坑的新人一个指引,也给非 Mlsys 背景但感兴趣的其他领域的同学一些启发。


链接:

https://zhuanlan.zhihu.com/p/608318764

 

11. 开源机器学习软件对AI的发展意味着什么

 

过去十年,只要构建过 ML 模型的人都知道 MLOSS 至关重要,无论是 Deepmind 的研发工程师,还是印度的高中生都无一例外会使用开源软件来构建模型。作者采访了 24 名 ML 从业者,他们都给出了相同的答案:MLOSS 工具在模型构建中的地位举足轻重。

 

从业者都在免费使用 MLOSS 工具,也就意味着这类工具会对人工智能发展产生巨大影响。然而,探索 MLOSS 对 AI 发展影响的研究人员却寥寥无几。


链接:

https://mp.weixin.qq.com/s/7bB3_32h0jKBJ-8OGEiLSw

 

12. OneFlow源码解析:静态图与运行时

 

OneFlow 静态图的训练效率远高于动态图(eager 模式)。本文试图通过一个简单例子,结合v0.8.0版本的代码,解读一下静态图和运行时的实现机制。


链接:

https://mp.weixin.qq.com/s/3sR7fLWC80sG2nFToJa7vA

 

13. CUDA 编程:矩阵乘运算从 CPU 到 GPU

 

本文主要介绍用 CUDA 实现矩阵乘法运算(C = A x B)的几个基本方法,帮助理解矩阵在 GPU 上面的运算与 CPU 上的有何异同,通过实践上手 CUDA 的优化计算,相比基础方法,能提速 10 倍以上。本文内容涉及到 CUDA 矩阵 1D 运算、2D 运算、共享内存、CUBLAS 的使用。


链接:

https://zhuanlan.zhihu.com/p/573271688

 

14. CUDA SASS 汇编器:CuAssembler

 

尽管 CuAssembler 主要的目的是把 nvdisasm 的输出重新转回 cubin,但它并不是从零开始写汇编。作者推荐从 CUDA C 开始,除了 kernel 代码外,其他初始化代码都是尽量用 Runtime API,这样使用和修改都最简单直接。


链接:

https://zhuanlan.zhihu.com/p/348234642

 

15. 全面碾压 AdamW:谷歌新出优化器内存小、效率高

 

来自谷歌、 UCLA 的研究者提出了一种通过程序搜索发现深度神经网络训练的优化算法的方法,进而发现 Lion(EvoLved Sign Momentum)优化器。

实现这一目标面临两个挑战:首先是在无限稀疏的程序空间中寻找高质量的算法;其次是选择可以从小型任务泛化到更大、SOTA 任务的算法。为了应对这些挑战。该研究采用了一系列技术,包括具有热启动和重启的进化搜索、抽象执行、funnel 选择和程序简化。


链接:

https://mp.weixin.qq.com/s/QK7mBxmjkNfWyLKiNhTL2Q

 

16. YOLOv5 全面解析教程③:更快更好的边界框回归损失

 

本文总结了边界框回归中的三个几何因素,即重叠面积(overlap area)、中心点距离(central point distance)和高宽比(aspect ratio),在此基础上提出了完全 IoU(CIoU)损失,从而促进了更快的收敛和更优的性能。


链接:

https://mp.weixin.qq.com/s/LIOnJqJj_GrpakKbLeWEDQ

 

17. 下载量突破10亿,MinIO的开源启示录

 

在开源创业公司里,MinIO 的成长之路对其他开源企业/项目来说无疑是一个很好的参考范例。近期,他们的 CMO Jonathan Symonds 在一篇博客中分享了 MinIO 如何超越专有软件公司,以及如何在未来巩固自身优势,重点阐述了他们在开源商业模式、产品、社区构建以及开源信仰方面的想法,这些内容或许值得开源社区的初创企业借鉴。


链接:

https://mp.weixin.qq.com/s/ecgooN_5ggM3lS6AXThEDg


其他人都在看

ChatGPT搜索风

OneFlow v0.9.0正式发布

从0到1,OpenAI的创立之路

YOLOv5解析教程:目标检测模型精确度评估

比快更快,开源Stable Diffusion刷新作图速度

OneEmbedding:单卡训练TB级推荐模型不是梦

GLM训练加速:性能最高提升3倍,显存节省1/3


欢迎 Star、试用 OneFlow 最新版本:https://github.com/Oneflow-Inc/oneflow/

发布于: 刚刚阅读数: 8
用户头像

OneFlow

关注

不至于成为世界上最快的深度学习框架。 2022-03-23 加入

★ OneFlow深度学习框架:github.com/Oneflow-Inc/oneflow ★ OF云平台:oneflow.cloud

评论

发布
暂无评论
一块GPU搞定ChatGPT;ML系统入坑指南;理解GPU底层架构_人工智能_OneFlow_InfoQ写作社区