地址标准化服务 AI 深度学习模型推理优化实践
导读
深度学习已在面向自然语言处理等领域的实际业务场景中广泛落地,对它的推理性能优化成为了部署环节中重要的一环。推理性能的提升:一方面,可以充分发挥部署硬件的能力,降低用户响应时间,同时节省成本;另一方面,可以在保持响应时间不变的前提下,使用结构更为复杂的深度学习模型,进而提升业务精度指标。
本文针对地址标准化服务中的深度学习模型开展了推理性能优化工作。通过高性能算子、量化、编译优化等优化手段,在精度指标不降低的前提下,AI 模型的模型端到端推理速度最高可获得了 4.11 倍的提升。
1. 模型推理性能优化方法论
模型推理性能优化是 AI 服务部署时的重要环节之一。一方面,它可以提升模型推理的效率,充分释放硬件的性能。另一方面,它可以在保持推理延迟不变的前提下,使得业务采用复杂度更高的模型,进而提升精度指标。然而,在实际场景中推理性能优化会遇到一些困难。
1.1 自然语言处理场景优化难点
典型的自然语言处理(Natural Language Processing, NLP)任务中,循环神经网络(Recurrent Neural Network, RNN)以及 BERT[7](Bidirectional Encoder Representations from Transformers.)是两类使用率较高的模型结构。为了便于实现弹性扩缩容机制和在线服务部署的高性价比,自然语言处理任务通常部署于例如 Intel® Xeon®处理器这样的 x86 CPU 平台。然而,随着业务场景的复杂化,服务的推理计算性能要求越来越高。以上述 RNN 和 BERT 模型为例,其在 CPU 平台上部署的性能挑战如下:
RNN
循环神经网络是一类以序列(sequence)数据为输入,在序列的演进方向进行递归(recursion)且所有节点(循环单元)按链式连接的递归神经网络。实际使用中常见的 RNN 有 LSTM,GRU 以及衍生的一些变种。在计算过程中,如下图所示,RNN 结构中每一次的后级输出都依赖于相应的输入和前级输出。因此,RNN 可以完成序列类型的任务,近些年在 NLP 甚至是计算机视觉领域被广泛使用。RNN 相较于与 BERT 而言,计算量更少,模型参数共享,但其计算时序依赖性会导致无法对序列进行并行计算。
BERT
BERT[7]证明了能够以较深的网络结构在大型数据集上完成无监督预训练(Unsupervised Pre-training),进而供给特定任务进行微调(finetune)的模型。它不仅提升了这些特定任务的精度性能,还简化了训练的流程。BERT 的模型结构简单又易于扩展,通过简单地加深、加宽网络,即可获得相较于 RNN 结构更好的精度。而另一方面,精度提升是以更大的计算开销为代价的,BERT 模型中存在着大量的矩阵乘操作,这对于 CPU 而言是一种巨大的挑战。
1.2 模型推理优化策略
基于上述推理性能挑战的分析,我们认为从软件栈层面进行模型推理优化,主要有如下策略:
模型压缩:包括量化、稀疏、剪枝等
特定场景的高性能算子
AI 编译器优化
量化
模型量化是指将浮点激活值或权重(通常以 32 比特浮点数表示)近似为低比特的整数(16 比特或 8 比特),进而在低比特的表示下完成计算的过程。通常而言,模型量化可以压缩模型参数,进而降低模型存储开销;并且通过降低访存和有效利用低比特计算指令(如 Intel® Deep Learning Boost Vector Neural Network Instructions,VNNI),取得推理速度的提升。
给定浮点值,我们可以通过如下公式将其映射为低比特值:
其中和是通过量化算法所得。基于此,以 Gemm 操作为例,假设存在浮点计算流程:
我们可以在低比特域完成相应的计算流程:
高性能算子
在深度学习框架中,为了保持通用性,同时兼顾各种流程(如训练),算子的推理开销存在着冗余。而当模型结构确定时,算子的推理流程仅是原始全量流程个一个子集。因此,当模型结构确定的前提下,我们可以实现高性能推理算子,对原始模型中的通用算子进行替换,进而达到提升推理速度的目的。
在 CPU 上实现高性能算子的关键在于减少内存访问和使用更高效的指令集。在原始算子的计算流程中,一方面存在着大量的中间变量,而这些变量会对内存进行大量的读写操作,进而拖慢推理的速度。针对这种情况,我们可以修改其计算逻辑,以降低中间变量的开销;另一方面,算子内部的一些计算步骤我们可以直接调用向量化指令集,对其进行加速,如 Intel® Xeon®处理器上的高效的 AVX512 指令集。
AI 编译器优化
随着深度学习领域的发展,模型的结构、部署的硬件呈现出多样化演进的趋势。将模型部署至各硬件平台时,我们通常会调用各硬件厂商推出的 runtime。而在实际业务场景中,这可能会遇到一些挑战,如:
模型结构、算子类型的迭代的速度会高于厂家的 runtime,使得一些模型无法快速基于厂商的 runtime 完成部署。此时需要依赖于厂商进行更新,或者利用 plugin 等机制实现缺失的算子。
业务可能包含多个模型,这些模型可能由多个深度学习框架训得,此外模型可能需要部署至多个硬件平台。此时需要将这些格式不同的模型转化至各个硬件平台所需的格式,同时要考虑各推理框架实现的不同导致的模型精度性能变化等问题,尤其是像量化这类对于数值差异敏感度较高的方法。
AI 编译器就是为了解决上述问题而提出的,它抽象出了多个层次来解决上述的一些问题。首先,它接受各个前端框架的模型计算图作为输入,并通过各类 Converter 转化生成统一的中间表示。随后,诸如算子融合、循环展开等图优化 pass 会作用至中间表示,以提升推理性能。最后,AI 编译器会基于优化后的计算图进行面向特定硬件平台的 codegen,生成可执行的代码,这过程中会引入诸如 stitch、shape constraint 等优化策略。AI 编译器有很好鲁棒性、适应性、易用性,并且能够收获显著优化收益。
本文中,阿里云机器学习平台 PAI 团队联合英特尔数据中心软件团队、英特尔人工智能和分析团队、达摩院 NLP 地址标准化团队,针对地址标准化服务的推理性能挑战,合作实现了高性能的推理优化方案。
2. 地址标准化介绍
公安政务、电商物流、能源(水电燃)、运营商、新零售、金融、医疗等行业在业务开展的过程中往往涉及大量地址数据,而这些数据往往没有形成标准结构规范,存在地址缺失、一地多名等问题。随着数字化的升级,城市地址不标准的问题愈加凸显。
地址标准化[2](Address Purification)是阿里巴巴达摩院 NLP 团队依托阿里云海量的地址语料库,以及超强的 NLP 算法实力所沉淀出的高性能及高准确率的标准地址算法服务。地址标准化产品从规范地址数据、建立统一标准地址库的角度出发,提供高性能地址算法。
该地址算法服务能自动地标准化处理地址数据,可有效地解决一地多名,地址识别,地址真伪辨别等地址数据不规范、人工治理耗时耗力、地址库重复建设问题,为企业,政府机关以及开发者提供地址数据清洗,地址标准化能力,使地址数据更好的为业务提供支持。地址标准化产品具有如下的几个特点:
准确率高:拥有海量地址语料库以及超强的 NLP 算法技术,并持续优化迭代,地址算法准确率高
超强性能:积累了丰富的项目建设经验,能够稳定承载海量数据
服务全面:提供 20 多种地址服务,满足不同业务场景需求
部署灵活:支持公共云、混合云、私有化部署。
本次优化的模块属于地址标准化中的搜索模块。地址搜索是指用户输入地址文本相关信息,基于地址库和搜索引擎,对用户输入的地址文本进行搜索和联想,并返回相关兴趣点(Point of Interest,POI)信息。地址搜索功能不仅能够提升用户数据处理体验,同时也是多个地址下游服务的基础,如经纬度查询、门址标准化、地址归一等,因此在整套地址服务体系中起到了关键作用。
具体而言,本次优化的模型是基于多任务地理预训练语言模型底座产出的多任务向量召回模型和精排模型。
多任务地理预训练语言模型底座在掩码语言模型 (Masked Language Model, MLM) 任务的基础上结合了相关兴趣点分类与地址元素识别(省、市、区、POI 等),并通过元学习(Meta Learning)的方式,自适应地调整多个任务的采样概率,在语言模型中融入通用的地址知识。
多任务向量召回模型基于上述底座训练所得,包含双塔相似度、Geohash (地址编码) 预测、分词和 Term Weighting (词权重) 四个任务。
作为计算地址相似度匹配的核心模块,精排模型则是在上述底座的基础上,引入了海量点击数据和标注数据训练训练所得[3],并通过模型蒸馏技术,提升了模型的效率[4]。最终用应用于召回模型召回的地址库文档重新排序。基于上述流程训练得到的 4 层单模型能够在 CCKS2021 中文 NLP 地址相关性任务[5]上获得较 12 层基线模型更好的效果(详见性能展示部分)。
3. 模型推理优化解决方案
阿里云机器学习平台 PAI 团队推出的 Blade 产品支持以上提及的所有优化方案,提供了统一的用户接口,并拥有多个软件后端,如高性能算子、Intel Custom Backend、BladeDISC 等等。
3.1 Blade
Blade 是阿里云机器学习 PAI 团队(Platform of Artificial Intelligence)推出的通用推理优化工具,可以通过模型系统联合优化,使模型达到最优推理性能。它有机融合了计算图优化、Intel® oneDNN 等 vendor 优化库、BladeDISC 编译优化、Blade 高性能算子库、Costom Backend、Blade 混合精度等多种优化手段。同时,简洁的使用方式降低了模型优化门槛、提升了用户体验和生产效率。
PAI-Blade 支持多种输入格式,包括 Tensorflow pb、PyTorch torchscript 等。对于待优化的模型,PAI-Blade 会对其进行分析,再应用多种可能的优化手段,并从各种优化结果中选取出加速效果最明显的为最终的优化结果。
为了在保证部署成功率的前提下获得最大的优化效果,PAI-Blade 采取了“圈图”的方式进行优化,即:
将待优化子计算图中,能够被推理后端/高性能算子支持的部分转化至相应的优化子图;
无法被优化的子图回退(fallback)至相应的原生框架(TF/Torch)执行。
Blade Compression 是 Blade 推出的面向模型压缩的工具包,旨在协助开发人员进行高效的模型压缩优化工作。它包含了多种模型压缩功能,包括量化、剪枝、稀疏化等。压缩后的模型可以便捷地通过 Blade 实现进一步优化,以获得模型系统联合的极致优化。
量化方面,Blade Compression:
提供了简洁的使用接口,通过调用几个简单 api,即可完成量化改图、校准(calibration)、量化训练(Quantization-aware Training,QAT)、导出量化模型等步骤。
提供了多种后端的支持,通过 config 文件的配置,即可完成面向不同设备、不同后端的量化过程。
集成了 PAI-Blade 团队在实际生产业务中自研的各种算法,以获得更高的量化精度。
同时,我们提供了丰富的原子能力 api,便于对特定情况进行定制化开发。
BladeDISC 是阿里云机器学习平台 PAI 团队推出的面向机器学习场景的动态 shape 深度学习编译器,是 Blade 的后端之一。它支持主流的前端框架(TensorFlow、PyTorch)与后端硬件(CPU、GPU),同时也支持推理以及训练的优化。
3.2 基于 Intel® Xeon®的高性能算子
神经网络模型中的子网络通常具有长期的通用性和普遍性,如 PyTorch 中的 Linear Layer 和 Recurrent Layers 等,是模型建构的基础模块,负责着特定的功能,通过这些模块的不同组合得到形形色色的模型,并且这些模块也是 AI 编译器重点优化的目标。据此,为了得到最佳性能的基础模块,从而实现性能最佳的模型,Intel 针对 X86 架构对这些基础模块进行了多层次优化,包括使能高效的 AVX512 指令、算子内部计算调度、算子融合、缓存优化,并行优化等等。
在地址标准化服务中,经常会出现 Recurrent Neural Network (RNN) 模型,并且 RNN 模型中最影响性能的模块是 LSTM 或 GRU 等模块,本章节以 LSTM 为例,呈现在不定长且多 batch 的输入时,如何实现对 LSTM 的极致性能优化。
通常,为了满足不同用户的需求和请求,追求高性能和低成本的云上服务会将不同的用户请求进行 Batch,以实现计算资源的最大化利用。如下图所示,总共有 3 条已经被 embedding 的句子,并且内容和输入的长度是不相同的。
为了使得 LSTM 计算的更高效,需要对 Batched input 采用 PyTorch 的 pack_padded_sequence()函数进行 padding 和 sort,得到下图所示,一个 paddding 的数据 tensor,一个描述数据 tensor 的 batch size 的 tensor,一个描述数据 tensor 的原始序号 tensor。
到目前为止,已经准备好了 LSTM 的输入,对于 LSTM 的计算过程如下图所示,对输入的 tensor 进行分段批量计算,及跳过零值计算。
更深入的 LSTM 的计算优化如下图 17 所示,公式中的矩阵乘部分进行了公式间计算融合,如下图所示,原先 4 次矩阵乘转换成 1 次矩阵乘,并且采用 AVX512 指令进行数值计算,以及多线程并行优化,从而实现高效的 LSTM 算子。其中,数值计算指的是矩阵乘和后序的 elementwise 的元素操作,针对矩阵乘部分,本方案采用的是 oneDNN 库进行计算,库中具有高效的 AVX512 GEMM 实现,针对 elementwise 的元素操作,本方案对其采用 AVX512 指令集进行算子融合,提升了数据在缓存中的命中率。
3.3 推理后端 Custom Backend
Intel custom backend[9]作为 Blade 的软件后端,强有力地加速着模型量化和稀疏的推理性能,主要包含三个层面的优化。首先,采用 Primitive Cache 的策略对内存进行优化,其次,进行图融合优化,最后,在算子层级,实现了包含稀疏与量化算子在内的高效算子库。
低精度量化
稀疏与量化等高速算子, 得益于 Intel® DL Boost 加速指令集,如 VNNI 指令集。
上图为 VNNI 指令, 8bits 可以使用 AVX512 BW 三个指令来加速, VPMADDUBSW 先对 2 对由 8bits 组成的数组做乘法与加法, 得到 16bits 数据, VPMADDWD 将相邻数据加总起来,得到 32bits 数据, 最后 VPADDD 加上一个常数, 此三函数可组成一个 AVX512_VNNI,此指令可用来加速推理中的矩阵相乘。
图融合
除此之外,Custom Backend 中也提供了图融合,例如矩阵相乘后不输出中间态临时 Tensor,而是直接运行后面指令,即将后项的 post op 与前级算子进行融合,如此减少数据搬运以减少运行时间,下图为一个范例,红框内的算子融合后可消除额外的数据搬移,成为一个新的算子。
内存优化
内存分配与释放会与操作系统进行通信,从而导致运行时的延时增加,为了减少这部分的开销,Custom Backend 中增加了 Primitive Cache 的设计,Primitive Cache 用于缓存已经被创建的 Primitive,使得 Primitive 不能被系统回收,减少了下一次调用时的创建开销。
同时为耗时较大的算子建立了快取机制,以加速算子运行,如下图所示:
量化功能如之前所说,模型大小减小后,计算与存取的开销大幅减少,从而性能得到巨大的提升。
4. 整体性能展示
我们选取了地址搜索服务中典型的两个模型结构来验证上述优化方案的效果。测试环境如下所示:
服务器型号:阿里云 ecs.g7.large,2 vCPU
测试 CPU 型号:Intel® Xeon® Platinum 8369B CPU @ 2.70GHz
测试 CPU 核数:1 vCPU
PyTorch 版本:1.9.0+cpu
onnx 版本:1.11.0
onnxruntime 版本:1.11.1
4.1 ESIM
ESIM[6]是一种专为自然语言推断而生的加强版 LSTM,它的推理开销主要来自于模型中的 LSTM 结构。Blade 利用 Intel 数据中心软件团队开发的高性能通用 LSTM 算子对其进行加速,替换 PyTorch module 中的默认 LSTM (Baseline)。本次测试的 ESIM 中包含两种 LSTM 结构,单算子优化前后的性能如表所示:
优化前后,ESIM 端到端推理速度如表 所示,同时优化前后模型的精度保持不变。
4.2 BERT
BERT[7]近年来在自然语言处理 (NLP) 、计算机视觉(CV)等领域被广泛采纳。Blade 对该种结构有编译优化(FP32)、量化(INT8)等多种手段。
速度测试中,测试数据的 shape 固定为 10x53,各种后端及各种优化手段的速度性能如下表所示。可以看到,blade 编译优化后或 INT8 量化后的模型推理速度均优于 libtorch 与 onnxruntime,其中推理的后端是 Intel Custom Backend & BladeDisc。值得注意的是,经过量化加速后的 4 层 BERT 的速度是 2 层 BERT 的 1.5 倍,意味着可以在提速的同时,让业务用上更大的模型,获得更好的业务精度。
精度方面,我们基于 CCKS2021 中文 NLP 地址相关性任务[5]展示相关模型性能,如下表所示。达摩院地址团队自研的 4 层 BERT 的 macro F1 精度要高于标准的 12 层 BERT-base。Blade 编译优化可以做到精度无损,而经过 Blade Compression 量化训练后的真实量化模型精度要略高于原始浮点模型。
参考文献
[1] https://help.aliyun.com/document_detail/205129.html
[2] https://www.aliyun.com/product/addresspurification/addrp
[3] Augmented SBERT: Data Augmentation Method for Improving Bi-Encoders for Pairwise Sentence Scoring Tasks (Thakur et al., NAACL 2021)
[4] Rethink Training of BERT Rerankers in Multi-stage Retrieval Pipeline (Gao et al., ECIR 2021)
[5] https://tianchi.aliyun.com/competition/entrance/531901/introduction
[6] Enhanced LSTM for natural language inference[J] (Chen Q, Zhu X, Ling Z, et al., ACL 2017)
[7] BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding (Devlin J, Chang M W, Lee K, et al., ACL 2019)
[8] https://pytorch.org/docs/stable/generated/torch.nn.LSTM.html
[9] https://github.com/intel/neural-compressor/commits/inc_with_engine
评论