写点什么

30 倍加速,3 毫秒极速识别,人、车、OCR 等 9 大识别任务一网打尽

  • 2022 年 6 月 16 日
  • 本文字数:1641 字

    阅读完需:约 5 分钟

人脸、车辆、人体属性、卡证、交通标识等经典图像识别能力,在我们当前数字化工作及生活中发挥着极其重要的作用。业内也不乏顶尖公司提供的可直接调用的 API、SDK,但这些往往面临着定制化场景泛化效果不好、价格昂贵、黑盒可控性低、技术壁垒难以形成多诸多痛点。

而今天小编要给大家推荐的是一个完全开源免费的、覆盖人、车、OCR 等 9 大经典识别场景、在 CPU 上可 3 毫秒实现急速识别、一行代码就可实现迭代训练的项目 PaddleClas!


图 1 PaddleClas 图像分类应用示意图话不多说,赶紧送上传送门,识货的小伙伴赶紧尝试一下吧!

记得 Star 收藏防止走丢哦!

https://github.com/PaddlePaddle/PaddleClas



下面小编就来详细拆解下这个项目的过人之处吧!



图 2 9 大场景模型效果示意图

亮点一,完美平衡精度与速度



而使用 MobileNet 系列等轻量化模型可以保证较高的预测效率,在 CPU 上预测一张图像大约 3ms,但是模型精度往往和大模型有很大差距。

PaddleClas 推出的超轻量图像分类方案(Practical Ultra Light Classification,简称 PULC),就完美解决上述产业落地中算法精度和速度难以平衡的痛点。



表 1 不同模型精度速度结果对比

如图所示,它的精度与 Swin-Transformer 等大模型比肩,预测速度却可以快 30 倍以上,在 CPU 上的推理时长仅需 2ms!

亮点二易用性极强

PULC 方案不仅完美地平衡了精度与速度,还充分考虑了产业实践过程中需要定制化的对算法快速迭代的需求,只需一行命令,就可完成模型训练。

与此同时,PaddleClas 团队还发布了包括人、车、OCR 在内的 9 大场景模型,仅需 2 步就能实现业务 POC 效果验证,训练、推理、部署一条龙,真正实现“开箱即用”。



不仅如此,项目还匹配了详细的中文使用文档及产业实践范例教程。



图 3 使用文档及范例示意图

3.亮点三 集成超多硬核技术

超轻量图像分类方案(PULC)集成了业界 4 大业界领先的优化策略:



图 4 超轻量图像分类方案(PULC)示意图

PP-LCNet 轻量级骨干网络

PP-LCNet 作为针对 CPU 量身打造的骨干网络模型,在速度、精度方面均远超如 MobileNetV3 等同体量算法,多个场景模型优化后,速度较 SwinTransformer 的模型快 30 倍以上,精度较 MobileNetV3_small_0.35x 高 18 个点。

SSLD 预训练权重

SSLD 半监督蒸馏算法可以使小模型学习到大模型的特征和 ImageNet22k 无标签大规模数据的知识。在训练小模型时,使用 SSLD 预训练权重作为模型的初始化参数,可以使不同场景的应用分类模型获得 1-2.5 个点的精度提升。

数据增强策略集成

该方案融合了图像变换、图像裁剪和图像混叠 3 种数据增强方法,并支持自定义调整触发概率,能使模型的泛化能力大大增强,提升模型在实际场景中的性能。模型可以在上一步的基础上,精度再提升 1 个点左右。

SKL-UGI 知识蒸馏算法

SKL(symmetric-KL)在经典的 KL 知识蒸馏算法的基础上引入对称信息,提升了算法的鲁棒性。同时,该方案可以方便地在训练中加入无标签训练数据(Unlabeled General Image),可以进一步提升模型效果。该算法可以使模型精度继续提升 1-2 个点。

4.服务真实场景需求 20 种产业算法落地方案

不仅如此,PaddleClas 团队考虑到真实产业应用面对的各种软硬件环境和不同的场景需求,在提供 PULC 方案的同时,还提供了包括 3 种训练方式、5 种训练环境、3 种模型压缩策略和 9 种推理部署方式在内的 20 种产业算法落地方案:



表 2 PaddleClas 训练推理部署功能支持列表

其中值得高度关注的有:

01. 分布式训练

飞桨分布式训练架构具备 4D 混合并行、端到端自适应分布式训练等多项特色技术。在 PP-LCNet 训练中,4 机 8 卡相较于单机 8 卡加速比达到 3.48 倍,加速效率 87%,精度无损。

02 模型压缩

飞桨模型压缩工具 PaddleSlim 功能完备,覆盖模型裁剪、量化、蒸馏和 NAS。图像分类模型经过量化裁剪后,移动端平均预测耗时减少 24%。

03 移动端/边缘端部署

飞桨轻量化推理引擎 Paddle Lite 适配了 20+ AI 加速芯片,可以快速实现图像分类模型在移动设备、嵌入式设备和 IOT 设备等高效设备的部署。

以上所有模型、代码均在 PaddleClas 中开源提供,还有超详细文档教程和范例项目,赶紧查看全部开源代码并 Star 收藏吧~

链接指路https://github.com/PaddlePaddle/PaddleClas

用户头像

关注百度开发者中心,收获一手技术干货。 2018.11.12 加入

汇聚百度所有对外开放技术、平台和服务资源,提供全方位支持,助力开发者加速成功,实现开发者、消费者和百度三方共赢。https://developer.baidu.com/

评论

发布
暂无评论
30倍加速,3毫秒极速识别,人、车、OCR等9大识别任务一网打尽_百度开发者中心_InfoQ写作社区