探索编译软件栈新范式;高端 GPU 禁售的影响;陈天奇 DL 系统免费课程|AI 系统前沿动态
1. 高端 GPU 禁售传闻声起,BAT 们遭遇紧张时刻
互联网企业成为此次制裁波及的主要对象。行业人士指出,互联网厂商出于对性能等因素考虑,对国产 CPU、GPU 普遍接纳度不高,此次事件应为互联网厂商预警,加速 CPU、GPU 等核心芯片的国产替代应受到重视,希望有助于互联网厂商加速推进服务器核心芯片国产替代的导入和验证,提升自主可控能力。
链接:
2. 陈天奇 CMU 新课程线上免费听,剖析 DL 框架底层原理
9 月 13 日开课,线上免费注册参与,主要面向高年级本科到博士在读阶段的学生。需要参与者有基本的数学背景,对机器学习有一定的了解,掌握系统编程(Python 和 C/C++ )和线性代数。
链接:https://zhuanlan.zhihu.com/p/558676179
3. 旷视天元 MegEngine 开源 CUDA INT4 量化源码实现
为了推动低比特量化技术的发展,旷视天元 MegEngine 团队开源了 INT4 的源码实现,这也让 MegEngine 成为首个开源 CUDA INT4 源码实现的深度学习框架。MegEngine 采用均匀线性量化方案,实现了非对称量化和对称量化两种 INT4 的数据类型,同时通过算子融合优化、kernel 优化等方法,使得量化后的模型可以依然保持较高的精度以及良好的运行速度。同样以 ResNet-50 为例,INT4 相比 INT8 有 1.3 倍的加速。
链接:https://mp.weixin.qq.com/s/zJPagx0FFN5lGltWgSJDXg
4. OneFlow源码解析:Tensor类型体系与Local Tensor
tensor 和 op 是神经网络模型最基本的组件:op 是模型的节点,tensor 是连接节点的边。然而,构建一个 tensor 并不仅仅是构造一个对象那么简单,至少要考虑以下问题:要支持节点本地的 local tensor,以及分布式的 global tensor;要支持 eager 和 lazy 执行模式;要支持不同的数据类型,包括 float、double、int 等;要支持不同设备。
链接:https://mp.weixin.qq.com/s/eB5TP9f8LQOzW7sDgUhGJQ
5. 深入了解 MindSpore 训练推理框架设计
作者将围绕 MindSpore 的 Model 类的相关代码,对 MindSpore 的训练流程设计和推理流程设计进行深入的解读,并且结合相应的代码,以分割任务为例,介绍如何使用 Model.train 和 Model.eval 构建复杂任务的训练测试流程设计。
链接:https://zhuanlan.zhihu.com/p/559357242
近期,Meta AI 团队在生产 PyTorch AI 模型时遇到了一个难题。这一问题由 CUDA 非法内存访问引起,号称集结了 Meta 全公司最牛的 AI 工程师才搞定,这篇博客记录了他们使用 CUDA 的 core dump 来确定报错位置所使用的技巧和实践。
链接:https://mp.weixin.qq.com/s/OkHCFVCPLNJCG-f_eARn5w
7. 简单谈谈 CUDA 的访存合并
学习 CUDA 的人肯定会经常听到“访存合并”这个词,作者主要从基础概念、向量化的错误做法导致的未合并访存进行介绍。
链接:https://zhuanlan.zhihu.com/p/559957579
8. MLIR-Playground: 探索下一代编译软件栈工程的新范式
MLIR 中国社区的一些开发者利用个人业余时间,开发了 MLIR-Playground,一个可以直接在浏览器里利用 MLIR 开发编译逻辑的云端应用。此举主要是受到了设计软件 Figma 是如何利用 Web 技术重新定义了 UI 设计协作,以及 OpenAI 是如何利用简单的网页 Playground 大幅降低了超大 AI 模型尝试门槛的启发。
链接:https://zhuanlan.zhihu.com/p/560810344
9. TVM 入门学习指南
作者结合 TVM Unify 相关的抽象以及之前的一些积累重新梳理一下 TVM 的整体流程。他从前端,中端(图优化 Pass 机制),代码生成(Schedule),Runtime,开发工具几个角度进行了介绍。本文将尽量避免涉及到底层 C++代码的细枝末节,而是从较为宏观的视角来讲清楚目前 TVM 的架构,希望对入门 TVM 的读者有帮助。
链接:https://zhuanlan.zhihu.com/p/560210215
10. 通用多模态基础模型 BEiT-3:引领文本、图像、多模态预训练迈向“大一统”
微软亚洲研究院联合微软图灵团队推出了最新升级的 BEiT-3 预训练模型,在广泛的视觉及视觉-语言任务上,包括目标检测(COCO)、实例分割(COCO)、语义分割(ADE20K)、图像分类(ImageNet)、视觉推理(NLVR2)、视觉问答(VQAv2)、图片描述生成(COCO)和跨模态检索(Flickr30K,COCO)等,实现了 SOTA 的迁移性能。BEiT-3 创新的设计和出色的表现为多模态研究打开了新思路,也预示着 AI 大一统渐露曙光。
链接:https://mp.weixin.qq.com/s/PIzTxwsojUSEf_8PtB2jig
11. 扩散模型背后数学太难了?谷歌用统一视角讲明白了
很多研究者认为,基于扩散模型的文本图像生成模型不但参数量小,生成的图像质量却更高,大有要取代 GAN 的势头。不过,扩散模型背后的数学公式让许多研究者望而却步,众多研究者认为,其比 VAE、GAN 要难理解得多。
近日,来自 Google Research 的研究者撰文《 Understanding Diffusion Models: A Unified Perspective 》,本文以极其详细的方式展示了扩散模型背后的数学原理,目的是让其他研究者可以跟随并了解扩散模型是什么以及它们是如何工作的。
链接:https://mp.weixin.qq.com/s/v14V_sMPhMVrtw2EKMISQQ
12. 深势科技联手阿里云,AI 蛋白质预测再下一城
深势科技与阿里云机器学习 PAI 团队联手,通过全新的蛋白质结构预测推理加速方案 FoldAcc,结合深势 Uni-Fold 最新模型代码和参数,将单次预测能支持的最大氨基酸序列长度提升至 6.6k,覆盖 99.992%已知的蛋白序列,同时推理速度显著提升,达到目前已知的最佳推理优化效果,将为 AI 预测蛋白质结构落地应用提供重要助力。
链接:https://mp.weixin.qq.com/s/oSZ2hmWifiN5fIWRST2Dtw
13. 线上活动报名 | AI 思享会:中国 AI 基础软件发展探讨
时间:9 月 8 日(本周四)14:30
TensorFlow 和 PyTorch 等已经被广泛应用,但随着 AI 技术的进一步发展,在分布式训练、高性能计算和高效编译等方面都有了新的需求,AI 基础软件的发展也有了新的要求和方向。
本期 AI 思享会邀请了几位从事 AI 基础软件研究和创业的清华校友和老师等,分享各自在 AI 基础软件方面的成果和进展,及共同探讨和展望新一代 AI 基础软件发展的情况。
链接:https://mp.weixin.qq.com/s/WUNiNFCPBJg9IigAHtjvQQ
题图源自 Dimitris Vetsikas, Pixabay
其他人都在看
欢迎下载体验 OneFlow v0.8.0 最新版本:https://github.com/Oneflow-Inc/oneflow/
评论