关于 ChatGPT 的一切；CUDA 入门之矩阵乘；PyTorch 2.0 发布｜AI 系统前沿动态

2022-12-11
重庆
本文字数：2849 字
阅读完需：约 9 分钟

1.截止目前，关于 ChatGPT 的一切

ChatGPT 是 GPT3 的一大飞跃，就像 GPT3 本身是 GPT2 的质的飞跃一样。目前，关于 ChatGPT 的解读内容数量和种类繁多，让人跟上非常困难，容易患错失恐惧症。因此，作者整理了一个笔记，并尝试给出一个连贯、简洁的 ChatGPT 阅读摘要，帮助读者更为清晰和简洁地了解 ChatGPT。

链接：

https://lspace.swyx.io/p/everything-we-know-about-chatgpt?continueFlag=63aa7c6ee1fe81cb3908db6695296d03

2. ChatGPT 会成为下一代搜索引擎吗？

作为智能对话系统，ChatGPT 最近爆火，都火出技术圈了，网上到处都在转 ChatGPT 相关的内容和测试例子，效果确实很震撼。

那么，ChatGPT 到底是采用了怎样的技术，才能做到如此超凡脱俗的效果？既然 ChatGPT 功能如此强大，那么它可以取代 Google、百度等现有搜索引擎吗？如果能，那是为什么，如果不能，又是为什么？

链接：

https://zhuanlan.zhihu.com/p/589533490

3. PyTorch 2.0 来了！100%向后兼容，一行代码将训练提速 76%

新版本的重要进步体现在速度和可用性，而且完全向后兼容。PyTorch 团队表示，PyTorch 2.0 是他们向 2.x 系列迈出的第一步，其稳定版预计在 2023 年 3 月初发布。

首先，PyTorch 2.0 引入了 torch.compile，这是一种编译模式，可以在不更改模型代码的情况下加速模型。在 163 个涵盖视觉、NLP 和其他领域的开源模型中，该团队发现使用 2.0 可以将训练速度提高 38-76%。其次，PyTorch 2.0 是 100% 向后兼容的：代码库一样，API 一样，写模型的方式也一样。团队之所以称它为 2.0，是因为它有一些标志性的新特性。在官方博客中，PyTorch 团队还公布了他们对于整个 2.0 系列的展望。

链接：

https://mp.weixin.qq.com/s/NzmUphWdQDemu-sWwh4vTg

4. 热门讨论：如何看待 PyTorch 2.0？

链接：

https://www.zhihu.com/question/570220953/answer/2786337522

5. 打造 TensorFlow 的未来

Google 正着手开发下一个 TensorFlow 迭代，以实现机器学习的下一个十年发展目标。他们正在构建出色的 TensorFlow 功能，同时专注于四大支柱。

链接：

https://mp.weixin.qq.com/s/8SlhtLY9mQWUOvnEa3Bn2A

6. 北大河图发布分布式训练神器 Galvatron，一键实现大模型高效自动并行

实际上，大模型的分布式部署是一个非常复杂的问题，目前的绝大多数的分布式训练系统，都依赖用户人工反复尝试以及系统专家经验来进行部署，造成严重的资源利用效率低下的问题，与真正的 “自动并行” 存在相当大的差距。基于此，北大河图团队提出了一款分布式训练神器 Galvatron，以实现大模型的高效自动并行，研究论文入选国际顶会 VLDB 2023。

链接：

https://mp.weixin.qq.com/s/levwBKhbp3dJAIslvqyZAQ

7. 如何高效实现矩阵乘？万文长字带你从 CUDA 初学者的角度入门

矩阵乘作为目前神经网络计算中占比最大的一个部分，其快慢会显著影响神经网络的训练与推断所消耗的时间。虽然现在市面上已经有非常多的矩阵乘的高效实现——如基于 CPU 的 mkl、基于 arm 设备的 ncnn 与 emll、基于 CUDA 的 cublas ——掌握了矩阵乘优化的思路不仅能帮助你更好地理解编写高性能代码的一些基本原则，而且许多神经网络加速领域进阶的技巧如算子融合都是与矩阵乘交互从而达到更高的性能。

由于矩阵乘的性能优化与两个矩阵的形状有着非常密切的联系，因此，为了降低本文的撰写难度（以及辅助读者更好的理解矩阵乘优化），本文将从一个 CUDA 初学者的角度来阐述如何优化一个形状较大的正方形乘正方形的 FP32 矩阵乘。

链接：

https://mp.weixin.qq.com/s/rWWx0Uf4oin0kmtEjVXBqw

8. OneFlow-ONNX v0.6.0正式发布

OneFlow-ONNX v0.6.0 正式发布。新版本提升了转换接口的易用性，开发了多个新特性，并新增支持 6 种模型以及 20 多种算子，此外，还修复了 6 个转换过程中的 bug。更新详情请查看链接：https://github.com/Oneflow-Inc/oneflow_convert/releases/tag/v0.6.0

链接：

https://mp.weixin.qq.com/s/Ntv4x6cptrpYtJpybT2heA

9. 比快更快，开源Stable Diffusion刷新作图速度

前不久，OneFlow 首度将 Stable Diffusion 模型加速至“一秒出图”时代，随后 AI 社区开启一场 AI 作图的竞速“内卷”。近日，OneFlow 又刷新了 SOTA 记录。

值得一提的是，在优化和加速 Stable Diffusion 模型的过程中使用了 OneFlow 自研编译器，不仅让 PyTorch 前端搭建的 Stable Diffusion 在 NVIDIA GPU 上跑得更快，而且也可以让这样的模型在国产 AI 芯片和 GPU 上跑得更快。

链接：

https://mp.weixin.qq.com/s/zwZHX_8JibGIoL9OMkKsuw

10. 一文弄懂 Diffusion Model

最近 AI 绘图非常的火，其背后用到的核心技术之一就是 Diffusion Model（扩散模型），虽然想要完全弄懂 Diffusion Model 和其中复杂的公式推导需要掌握比较多的前置数学知识，但这并不妨碍我们去理解其原理。本文重点去讲解什么是 Diffusion Model。

链接：

https://mp.weixin.qq.com/s/G50p0SDQLSghTnMAOK6BMA

11. 清微智能 CTO 欧阳鹏：架构创新是通往高性能计算芯片必由之路