写点什么

首个中文 Stable Diffusion 模型开源;TPU 演进十年;18 个 PyTorch 性能优化技巧 | AI 系统前沿动态

作者:OneFlow
  • 2022-11-14
    重庆
  • 本文字数:2916 字

    阅读完需:约 10 分钟

首个中文Stable Diffusion模型开源;TPU演进十年;18个PyTorch性能优化技巧 | AI系统前沿动态

1. TPU演进十年:Google的十大经验教训


希腊神话中,特洛伊战争的起因是两方争夺世界上最美的女人——海伦,后世诗人将海伦的美貌“令成千战舰为之起航”。TPU 就像海伦,它的出现引起了“成千芯片与之竞逐”。


可以说,TPU 的问世引发了硅谷的“地震”。TPU 宣布诞生后,Intel 耗资数十亿美元收购了多家芯片公司,阿里巴巴、Amazon 等竞争对手纷纷开始研发类似产品。TPU 重新唤起了人们对计算机架构的关注,后来的几年内,出现了上百家相关初创企业,年均总融资额近 20 亿美元,各种新奇的想法层出不穷。


链接:

https://mp.weixin.qq.com/s/XuwExQsg582YSAQboypbsA


2. 进击的PyTorch,和它背后的开源领袖


十年间,从 Torch 进化到 PyTorch,再到近期落地 Linux 基金会,PyTorch 从一个无心插柳的项目逐渐演变为最有影响力的开源项目之一。它究竟是如何一步步成长起来的?背后有那些与众不同的故事?


链接:

https://mp.weixin.qq.com/s/JrutTVvFtx3xZoagy661LQ


3. 首个中文 Stable Diffusion 模型开源,中文 AI 艺术时代开启


生成内容一直被视为 AI 领域中最具有挑战性的能力,最近大火的 AI 绘画背后,是 Stable Diffusion 模型的开源,催生了众多 AI 绘画的应用,得益于 Stability AI 的开源精神,这一创变推动了整个以英文为主的下游文生图生态的蓬勃发展。


然而在国内,目前大部分团队主要是基于翻译 API + 英文 stable diffusion 模型进行开发,但由于中英文之间所得存在文化差异导致遇到中文独特的叙事和表达时,这种模型就很难给出正确匹配的图片内容。因此,IDEA 研究院认知计算与自然语言研究中心(IDEA CCNL)开源了第一个中文版本的 stable diffusion 模型“太乙 Stable Diffusion”,让中文的世界真正拥有具备中国文化内核的 AIGC 模型。


链接:

https://mp.weixin.qq.com/s/WrzkiJOxqNcFpdU24BKbMA


4. 开源风暴吞噬AI界?从Stable Diffusion的爆火说起


近日,文本生成图像模型 Stable Diffusion 背后的公司 Stability AI 宣布获得了 1.01 亿美元超额融资,估值达 10 亿美元,这家基于开源社区的“草根”企业的风头一时间甚至盖过了业界顶级研究机构 OpenAI。


尽管开源项目存在商业模式、开源许可协议等方面的挑战,但通过良好开源社区的驱动,AI 项目的技术发展、应用广度和创造空间都有了意想不到的发展,正如开源“吞噬”软件 1.0,“开源 AI”运动将在软件 2.0 时代不可阻挡。


链接:

https://mp.weixin.qq.com/s/yc5zCng3DLfn9mR80XncRw


5. 旷视开源深度学习模型编译器 MegCC


MegEngine 团队开源的深度学习模型编译器 MegCC 是一个运行时超轻量,高效,移植简单的深度学习模型编译器。基于 MLIR 开发,便于所有对二进制大小/内存占用敏感的推理场景。输入模型,输出可执行文件,mobilenetv1 的推理 runtime 只要 81KB,速度和内存占用都很不错。为了便于大家使用,在 MegEngine 模型之外还支持 ONNX 模型的导入。


链接:

https://github.com/MegEngine/MegCC


6. TensorFlow 将于 2023 年发布新版,明确四大支柱


近日,谷歌宣布他们已经着手开发 TensorFlow 的下一个迭代,并专注于快速和可扩展、应用型 ML、部署、简单化这四大支柱。更具体地,谷歌计划在 2023 年第二季度发布新的 TensorFlow 预览版,之后晚些时候发布生产版本。


链接:

https://mp.weixin.qq.com/s/5YIT45AcSe1237kYnADUrw

7. PyTorch 编译机制的总结


PyTorch 编译器一直在不断变化,不断出现新的解决方案堆栈或 IR,新方案都与以前的解决方案部分重叠。这是为什么?


链接:

https://dev-discuss.pytorch.org/t/the-nuances-of-pytorch-graph-capture/501


8. 优化 PyTorch 的速度和内存效率(2022)


深度学习模型的训练/推理过程涉及很多步骤。在有限的时间和资源条件下,每个迭代的速度越快,整个模型的预测性能就越快。作者收集了几个 PyTorch 技巧,以最大化内存使用效率和最小化运行时间。为了更好地利用这些技巧,我们还需要理解它们如何以及为什么有效。


链接:

https://mp.weixin.qq.com/s/BYV-ANrWpaKHEYnTomBCXQ


9. OneFlow的大模型分片保存和加载策略


在模型比较小时(如 100G 以下),还有可能采用单机存储。当模型参数量比较大时,要求的样本数也更大,训练后做 dump 出来的模型也会很大,单机肯定放不下。本文将介绍 OneFlow 的大模型分片保存、加载策略以及使用方法。


链接:

https://mp.weixin.qq.com/s/2Z400_r_ZVwYYnGH7vw9zg


10. 视频教程|OneFlow 源码解析(3):OneFlow 的 Eager VM


其它的深度学习框架的动态图运行时,往往可能只做简单的算子派发。OneFlow 的动态图运行时(Eager VM),做了多项技术创新,如:将张量的生命周期作为性能优化的考量之一。这使得 OneFlow Eager VM 在通常情况下,都具有性能优势,在某些边界情况下,这类性能优势可以超过 100%。


链接:

https://www.bilibili.com/video/BV1xY4y1K7e6/?spm_id_from=333.788.recommend_more_video.1&vd_source=25c3e9bdd8a5701b69d322f471c11c38


11. 昇思金箍棒:基于 MindSpore 的业界 SOTA 模型压缩算法集


近些年来,随着算力的提升、数据的爆炸式增长和深度神经网络技术的成熟,深度神经网络在 CV、NLP 等很多领域都取得了远超传统机器学习的效果,相应的,神经网络的规模和参数量也在迅速增加。端边设备的算力、电量和内存虽然有提升,但并不能匹配神经网络的部署要求,模型压缩算法就是为解决这个矛盾应运而生。


链接:

https://zhuanlan.zhihu.com/p/555032583


12. Meta 发布全新推理引擎 AITemplate


Meta 发布了革命性的推理引擎 AITemplate。测试结果显示,相比 PyTorch Eager,AITemplate 在 NVIDIA GPU 上实现了最高 12 倍的性能提升,在 AMD GPU 上实现了高达 4 倍的性能提升。


链接:

https://mp.weixin.qq.com/s/POMDj0P4-IHVR1y63CKBkQ


13. 一行代码 12 倍加速 Bert 推理,OpenAI 编程语言加持的引擎火了


一行代码的威力到底有多大?今天我们要介绍的这个 Kernl 库,用户只需一行代码,在 GPU 上就能以快几倍的速度运行 Pytorch transformer 模型,从而极大的加快了模型的推理速度。具体而言,有了 Kernl 的加持,Bert 的推理速度比 Hugging Face 基线快了 12 倍。


这一成果主要得益于 Kernl 用新的 OpenAI 编程语言 Triton 和 TorchDynamo 编写了定制的 GPU 内核。项目作者来自 Lefebvre Sarrut。


链接:

https://mp.weixin.qq.com/s/aIjq2JDUrfTmm7Bw6QdiPA

14. 重磅!AI基础软件架构峰会来袭,算法能力的新跃迁


2022 年 11 月 19 日,DataFunSummit2022:AI 基础软件架构峰会将如约而至。本次峰会由 3 位主席与 5 位出品人精心策划而成,共包含了:深度学习框架、超大规模模型训练、AI 芯片及编译器、新一代 AI 基础架构及应用、MLOps 及 AI 工程化落地、端侧推理等 6 大主题论坛,邀请 30 余位来自国内外一线的 AI 基础软件技术专家,进行深度分享交流。本次峰会将全程直播,欢迎大家届时收看。


链接:https://mp.weixin.qq.com/s/8yOBMadMts6zaic3Zpn6xg


其他人都在看


欢迎下载体验 OneFlow v0.8.0 最新版本:https://github.com/Oneflow-Inc/oneflow/

用户头像

OneFlow

关注

不至于成为世界上最快的深度学习框架。 2022-03-23 加入

★ OneFlow深度学习框架:github.com/Oneflow-Inc/oneflow ★ OF云平台:oneflow.cloud

评论

发布
暂无评论
首个中文Stable Diffusion模型开源;TPU演进十年;18个PyTorch性能优化技巧 | AI系统前沿动态_人工智能_OneFlow_InfoQ写作社区