Hinton 等谈深度学习十年;PyTorch 落地 Linux 基金会的影响;机器学习界的“GitHub”|AI 系统前沿动态
1. 重磅!PyTorch 落地 Linux 基金会
扎克伯格亲自宣布,PyTorch 基金会已新鲜成立,并归入 Linux 基金会旗下,管理委员会成员,包括 Meta、AMD、AWS、谷歌云、微软和英伟达。Meta 表示,PyTorch 成功背后的驱动力,是开源社区充满活力的持续增长。成立基金会将确保社区成员以透明和公开的方式作出决定。
链接:https://mp.weixin.qq.com/s/832JBlOlJyMv8EPpFQVXQg;
2. 深度学习十年后撞墙了?Hinton、LeCun、李飞飞不这么认为
10 年后,如今已经成为图灵奖得主的 Geoffrey Hinton、Yann LeCun,ImageNet 挑战赛的主要发起人与推动者李飞飞如何看待过去十年的 AI 技术突破?又对接下来十年的技术发展有什么判断?近日,海外媒体 VentureBeat 的一篇专访文章,让 AI 社区开始讨论起这些问题。
链接:https://mp.weixin.qq.com/s/ijsyATtxDBLgLaWLDdqRfg
3. TensorFlow 2.10 上线:Windows 上扩展 GPU 支持,TF-DF 1.0 发布
新版本的亮点包括:Keras 中新的用户友好特性、Windows 中扩展 GPU 支持等等。此版本还标志着 TensorFlow 决策森林 (TF-DF) 1.0 版本的到来!
链接:https://mp.weixin.qq.com/s/UYg3-lTK9QwQou2knMP0Sw
4. 提速还能不掉点!深度解析 MegEngine 4 bits 量化开源实现
量化模型被广泛使用在推理侧,量化也成为了一个重要且非常活跃的研究领域。近期,MegEngine 开源了 4 bits 的量化的相关内容,通过 MegEngine 4 bits 量化实现的 ResNet-50 模型在 ImageNet 数据集上的精度表现与 8 bits 量化模型相差无几,并且速度是 TensorRT-v7 8 bits ResNet-50 模型的推理速度的 1.3 倍。
链接:https://zhuanlan.zhihu.com/p/565121111
5. 视频教程|OneFlow 源码解析(1):分布式易用性
本视频介绍 OneFlow 如何通过发明的 SBP 及 placment 概念,简化分布式训练流程。从 SBP 的角度,可以更接近本质地理解数据并行、模型并行策略。
链接:https://www.bilibili.com/video/BV1va411u7H7?spm_id_from=333.999.0.0
6. Groq:从头设计一个张量流式处理器架构
不同于传统的 CPU 和 GPU 架构,Groq 从头设计了一个张量流处理器 (TSP) 架构, 以加速人工智能、机器学习和高性能计算中的复杂工作负载。这个架构不是开发小型可编程内核并对其进行数百次复制,而是容纳一个具有数百个功能单元的单个处理器。
链接:https://mp.weixin.qq.com/s/bmhFLsdgawgNQG_tSTP99A
7. SIMT、SIMD 和 DSA(1)
选 DSA 还是 SIMT 目前也是 AI 芯片最重要的架构选择问题,但选哪个都是一大堆具体概念和设计的集合。我们还是需要深入进去剖析两者好到底好在哪里。
链接:https://zhuanlan.zhihu.com/p/562135333
8. GPU 内存(显存)的理解与基本的使用
GPU 显存的组成与 CPU 的内存架构类似,但为了满足并行化运算 GPU 的显存做了特殊设计,与之相关的概念很多如 host memory、device memory、L1/L2 cache、register、texture、constant、shared memory、global memory 等,还会涉及一些硬件概念 DRAM、On/Off chip memory,还涉及到一些操作如 pin memory,zero copy 等。本文试图帮助了解这些显存相关的概念,包括一些特殊存储作用是什么,性能如何以及在 CUDA 中怎么用。
链接:https://zhuanlan.zhihu.com/p/462191421
9. CUDA SGEMM 矩阵乘法优化笔记:从入门到 cublas
最近开始入门 CUDA,初步了解 GPU 的工作原理后,选择了单精度矩阵乘法作为练习的 kernel,尝试从最简单的 SGEMM kernal 开始,逐步优化到 cublas 的性能水平。
链接:https://zhuanlan.zhihu.com/p/518857175
10. 如何利用 TVM 快速实现超越 Numpy 的 GEMM
本文主要讲述如何利用 TVM 实现超越 Numpy GEMM,有人在看了《How to optimize GEMM on CPU》以后说 TVM 还是没有超越 Numpy 的性能,是不是无法做到,于是作者写这篇文章来阐述我们如何在这个基础上做到超越。
链接:
https://zhuanlan.zhihu.com/p/75203171;
https://tvm.apache.org/docs/how_to/optimize_operators/opt_gemm.html
11. 一个 tvm(te)实现的 cutlass efficient gemm
这里记录的是从 tvm 的 tensor expression 出发,参考 cutlass efficient gemm 的思路,一步一步优化一下 GEMM 的一些思考,目的是为了理解 cutlass 优化 gemm 的思路。
链接:https://zhuanlan.zhihu.com/p/560729749
12. 视频教程|TVM 学习指南介绍(前端部分)
链接:https://mp.weixin.qq.com/s/rB8qYp_5WAOR-wOlW6svow
13. 扩散模型爆火,这是首篇综述与 Github 论文分类汇总
本综述(Diffusion Models: A Comprehensive Survey of Methods and Applications)首次对现有的扩散生成模型(diffusion model)进行了全面的总结分析,从 diffusion model 算法细化分类、和其他五大生成模型的关联以及在七大领域中的应用等方面展开,最后提出了 diffusion model 的现有 limitation 和未来的发展方向。
链接:https://mp.weixin.qq.com/s/GcL4_zgbWKDe4p53QFLzjw
14. Hugging Face:成为机器学习界的“Github”
五年前,AI 领域的知名研究者 Andrej Karpathy 发文称,传统人工编程属于“软件1.0”,“软件2.0”时代将以神经网络来编程,在这个过渡过程中,将涌现像 GitHub 这样的重量级平台。AI 届网红公司“抱抱脸(Hugging Face)”有志于成为“软件 2.0”时代的 GitHub。在 Hugging Face 上,用户可以托管机器学习模型和数据集等,对它们进行共享、协作和评价,最后将它们投入生产应用,这种模式有点像 Github 上的托管和协作模式。
链接:https://mp.weixin.qq.com/s/_2DVu1_zZ2AM9QYnyWeUxg
其他人都在看
欢迎下载体验 OneFlow v0.8.0 最新版本:https://github.com/Oneflow-Inc/oneflow/
版权声明: 本文为 InfoQ 作者【OneFlow】的原创文章。
原文链接:【http://xie.infoq.cn/article/fa393a5df3d5a1a52a4d29599】。文章转载请联系作者。
评论