ATB 概念之:算子 tiling
1 什么是算子 tiling
在计算机科学和深度学习领域,算子 tiling(有时也被称作操作符 tiling 或者循环 tiling)是一种优化技术,主要用于提高计算效率,尤其是在处理大规模张量运算时。Tiling 技术通常用于将大的计算任务分解成更小的块,这些小块可以在内存中更高效地处理,或者更适合并行计算环境。
在深度学习框架中,算子 tiling 可以应用于不同的场景:
内存优化:通过将大的张量切分成更小的部分,可以更好地利用高速缓存(cache),减少内存访问延迟,从而提高计算性能。
并行计算:在分布式系统或 GPU 上,数据可以被切分成块(tiles),然后并行处理。这样可以让更多的处理器同时工作,加快计算速度。
避免内存溢出:对于非常大的张量,直接处理可能会导致内存不足的问题。通过 tiling,可以将数据分批处理,从而避免一次性加载整个张量到内存中。在深度学习模型的实现过程中,特别是在卷积神经网络(CNNs)中,经常会遇到需要对输入数据进行切片处理的情况。例如,在一些深度学习框架中,可以使用特定的 API 来实现 tiling 操作。
需要注意的是,“tiling”一词在不同的上下文中可能有不同的含义。在图像处理中,tiling 也可能指的是将图像分割成多个小块(tiles),以便于独立处理或存储。而在计算机图形学中,tiling 则可能涉及到纹理映射或屏幕渲染中的技术。不过,在上述情况下讨论的“算子 tiling”主要指的是与计算优化相关的一种技术。
2 tiling data
tiling 操作输出的数据,就叫做 tilingdata,是 kernel 的分片参数,用于决定 kernel 实际计算时的分片策略。在 ATB 中(ATB 是什么? - 知乎 (zhihu.com))通常以结构体的形式存储,由用户输入的参数与张量 Shape 计算而来。
tiling data 的计算通常放到 host 侧,tiling data 在 host 侧计算完毕后,ATB 再将其拷贝到 device 侧,作为 kernel 的输入提供给 kernel。
既然是 host->device 肯定涉及到内存的拷贝,那如何优化这种拷贝任务也需要一种设计上的优化。在 ATB 中,存在三种不同的 tiling data 搬移策略:tiling 整体搬移、多 stream 搬移、tiling 随 kernel 下发搬移,当前默认使用的是 tiling 随 kernel 下发搬移这一方式。
3 ATB 中的 Tiling data 搬移策略
3.1 整体搬移
tiling 整体搬移方式会把每次计算出的 tiling data 存放到一片连续的 host 内存中,待所有 kernel 的 tiling data 计算完成后,再一次性搬移到 device 侧。
在性能优化方面,内存整体搬移相较于单个内存搬移,肯定是由有优势的。机器指令下发次数少,机器寻址次数也少。
3.2 多 stream 搬移方式
多 stream 搬移方式则是针对整体搬移方式做出的改良,其核心思路是通过 stream 并行的方式来减少 tiling data 搬移所消耗的时间。在该搬移策略中,ATB 会准备好两个 stream、一个环状的 device 缓冲区以及一系列同步信号量。
其中一条 stream 用于 kernel 的执行,另一条则单独用于 tiling data 的拷贝。由于 kernel 的执行依赖于 tiling data 拷贝的完成,此时需要用同步信号量来保证另一条 stream 上的 kernel 执行动作位于当前 kernel 的 tiling data 拷贝完成之后。
环状的 device 内存缓冲区则是用于处理在 tiling data 拷贝速度快于 kernel 执行速度时,提前拷贝到 device 侧的 tiling data 数据可以保存下来且不互相冲突。但在 tiling data 拷贝速度过于快时,有可能会出现 device 缓冲区被填满的情况,这种情况下需要增大 device 缓冲区中的内存块数。如上这种方式,也就是将 tiling 搬移作为异步任务下发,与 kernel 的执行形成流水的任务。这也是性能优化一种常用的手段。
注意:多 stream 搬移方式下的 tiling data 还是多个 kernel 的 tiling data,不是单 kernel 的 tiling data。
3.3 tiling 随 kernel 下发搬移
该策略对 tiling 整体搬移方式进行了性能优化,但优化方式与多 stream 搬移方式不同。
tiling 随 kernel 下发搬移的核心思路是:
不再等待所有 tiling data 计算完毕后再一次性搬移到 device 侧,而是每次计算完一个 kernel 的 tiling data 就搬移至 device 侧。
在 kernel 任务下发至 device 侧时,同时启动 tiling data 的搬移任务。这样就可以使 host 侧与 device 侧的设备并行,在 host 侧准备下一个 kernel 的 tiling data 的时候,device 侧同时执行当前 kernel 任务,从而显著提升了 tiling data 的搬移效率。
如下图所示,相较于多 stream 搬移方式,在 tiling data 搬移速度过快时会导致的 device 缓存区不足,从而导致 tiling data 被覆盖,tiling 随 kernel 下发搬移的方式不受两者(tiling data 拷贝速度与 kernel 执行速度)速度的限制,且性能优化也更进一步。
tiling 随 kernel 下发搬移策略这种方式下,还是一个异步操作。
疑问:性能上相比多 stream 搬移方式有提升吗?感觉是是差不多的,主要是不是解决 device 缓存区不足,从而导致 tiling data 被覆盖的问题?
参考:
工作原理-进阶专题-Ascend Transformer Boost加速库-领域加速库开发-CANN商用版8.0.RC2.2开发文档-昇腾社区
评论