Stable Diffusion 半秒出图;VLIW 的前世今生;YOLOv5 全面解析教程 | AI 系统前沿动态
1. Stable Diffusion采样速度翻倍!仅需10到25步的扩散模型采样算法
自研深度学习编译器技术的 OneFlow 团队更是在不降低采样效果的前提下,成功将之前的 “一秒出图” 缩短到了 “半秒出图”!在 GPU 上仅仅使用不到 0.5 秒就可以获得一张高清图片!
这基于清华大学朱军教授带领的 TSAIL 团队所提出的 DPM-Solver,一种针对于扩散模型特殊设计的高效求解器:该算法无需任何额外训练,同时适用于离散时间与连续时间的扩散模型,可以在 20 到 25 步内几乎收敛,并且只用 10 到 15 步也能获得非常高质量的采样。在 Stable Diffusion 上,25 步的 DPM-Solver 就可以获得优于 50 步 PNDM 的采样质量,因此采样速度直接翻倍。
https://mp.weixin.qq.com/s/vr5Pw6rc36PwQbP7j9vQYg
2. 比快更快,Stable Diffusion实现一秒出图
起初,AI 作图需要几天,再缩减到几十分钟,再到几分钟,出图时间在不断加速,问题是,究竟快到什么程度,才会在专业的美术从业者甚至普通大众之间普及开来?
显然,现在还无法给出具体答案。即便如此,可以确定的是 AI 作图在技术和速度上的突破,很可能已经接近甚至超过阈值,因为这一次,OneFlow 带来了字面意义上 “一秒出图” 的 Stable Diffusion 模型。
链接:https://mp.weixin.qq.com/s/KqffXfRhLN0LP3cHKkt2DQ
3. VLIW 的前世今生:为什么 DL 加速器都青睐于它
现在,很多主攻云端推理和训练市场的产品,在提到基础架构时都会宣传其自定义的矢量运算指令集,大发射位宽,高度的并行执行能力。这些名词背后的底层结构几乎都是 VLIW。被 Intel 收购的 Habana 就大方宣称采用自定义的 VLIW 的指令集。
虽然 VLIW 结构在之前的几十年只能算是取得了“非常有限的成果“,但就目前的深度学习处理器架构发展而言,重新回顾下 VLIW 的特征以及其成功和失败的案例仍然是很有意义的,也许这也是 AI 设计的一种可能方向。
链接:
https://zhuanlan.zhihu.com/p/101538383
作为业内备受关注的 AI 加速器创业公司,成立于 2016 年的 Cerebras 希望通过构建全新 AI 加速器方案解决 AI 计算问题,以实现数量级计算性能:首先,需要改进计算核心架构,而不只是一味地提升每秒浮点运算次数;其次,需要以超越摩尔定律的速度提高芯片集成度;最后,还要简化集群连接,大幅度提升集群计算效率。
为了实现上述目标,Cerebras 设计了一种新的计算核心架构。它让单台设备运行超大规模模型成为可能,此外,它开发出只需简单数据并行的横向扩展和本地非结构化稀疏加速技术,使大模型的应用门槛大幅降低。
链接:
https://mp.weixin.qq.com/s/_JmINzustpH1bEDMjz9WaA
5. 关于 AI 芯片软件栈的六条感悟
链接:
https://zhuanlan.zhihu.com/p/582706007
6. AI编译关键技术 • 高层循环编译优化 - 不仅仅是分块和合并
如何借助编译优化理论和方法,将计算图描述的深度学习算法部署在具体硬件上并让算法高效运行,是学术界和工业界一个重要的研究课题。更多深度芯片编译技术内容在清华大学出版社新书《多面体编译理论与深度学习实践》中。
https://mp.weixin.qq.com/s/mBheJ9NG8khcLRshI40b2w
7. TVM for DSA 的一些总结
目前 TVM/MLIR 等开源 AI 编译器生态有一定起色,于是进入了 TVM 的坑(端侧对 TVM 的接受度更高)。对于 TVM 来说,针对 CPU/GPU 等通用架构做了很多优化工作。我们的开发没有走 BYOC 路线(自身也没有现成编译软件栈,都需要 0-1 造所有轮子),于是就像 CPU/GPU 那样走 relay->te->tir->(llvm)->dsa 的路子,想沿用 TVM 上各种优秀的 feature。
链接:
https://zhuanlan.zhihu.com/p/571045566
上文中讲到的类似于PyTorch中的普通Tensor,在 OneFlow 中称为 Local Tensor。Local Tensor 是单卡视角下的普通 Tensor。与之相对,OneFlow 中还有一个独有的概念——Global Tensor。Global Tensor 是指被 placement 和 SBP 属性所指定的,一个全局视角下的逻辑 Tensor。Global Tensor 的 shape 是逻辑形状,其真实数据根据 placement 和 SBP 的规则分布在多个 rank 上。
Global Tensor 既可以通过普通的 Local Tensor 通过 tensor.to_global()转换得到,也可以直接用数据或 Numpy 来构造。
https://mp.weixin.qq.com/s/bVaz0DQkiylCA6S0SbFm3g
按照现在的趋势来说,模型越来越大了,大到一张 GPU 甚至装不下完整的模型,必须得上分布式并行技术,但是分布式代码在很多框架下都是高度定制化的,对于新手来说根本读不懂,也不知道应该怎么使用,导致大家上手非常的困难,让自己珍贵的发际线显得更加珍贵。
针对大模型上述存在的痛点,导致我们必须上分布式(数据并行、模型并行、流水并行)才能跑起来一个大模型。那么,LiBai 有哪些特点呢?
链接:
https://mp.weixin.qq.com/s/zWsB-iL0gYSqKKnYuRqw5g
作为计算机视觉领域的基础性技术,目标检测在业界具有广泛应用,而 YOLO 系列因其综合性能较好,成为广受欢迎的首选框架。
这次,为了让用户深入了解 OneFlow 训练目标检测模型的可行性以及性能的优越性,我们将 Ultralytics 版 YOLOv5 通过 import oneflow as torch 的方式迁移为 OneFlow 后端。
相比 PyTorch,目前 YOLOv5 在 OneFlow 上进行小 batch 训练时有 5%-10% 的性能优势,而训练大 batch 的性能与 PyTorch 持平。
链接:
https://mp.weixin.qq.com/s/imTnKQVWcJkY7yswBLcYtw
11. 关于 AI 大模型的一点思考和讨论
大家似乎都沉浸在大模型欣欣向荣、歌舞升平的状态中,大多数工业界的场景中,大模型并不能直接发挥价值。在不同的任务里还是要根据实际场景去谈具体的模型和算法,不建议逢解决方案就提大模型,也不建议把大模型当成一个主要的技术方案去忽悠不是特别懂这一块技术的人,事实上在学术界的论文中也不会有人说我们用一个 Big Model 解决了所有问题。
未来大模型应该可以在 2.c 所提的方向上持续发力,但肯定也会演变出来一系列千奇百怪或优或劣的 AI 架构,大浪淘沙,去伪存真。
链接:
https://zhuanlan.zhihu.com/p/580745171
12. 直播预告|LiBai:开源大规模预训练模型库及开发实践
LiBai(李白)模型库一个基于 OneFlow 的开源大规模模型工具箱,覆盖了 Hugging Face、Megatron-LM、DeepSpeed、FairSeq 这些所有主流 Transformer 库的优点,为用户提供了“开箱即用”的深度学习大模型体验。目前,LiBai 已支持 BERT、GPT、ViT、Swin-Transformer、T5 等常见大模型,以及 MoCoV3、MAE 等最新研究,开箱即用,并且可以很方便地在下游任务上进行微调。
11 月 24 日(本周四)19:00,LiBai 核心作者程鹏将首先介绍大规模预训练模型的开发生态,并比较主流的 Transformer 模型库,之后重点讲解开源大规模预训练模型库 LiBai 的研发目标、克服的困难。最后,程鹏也将展示基于 LiBai 的大模型开发流程。
报名链接:https://mp.weixin.qq.com/s/Td3LZjwxBFiSRwUb4_yUNw
其他人都在看
欢迎下载体验 OneFlow v0.8.0 最新版本:https://github.com/Oneflow-Inc/oneflow/
评论