提效神器!10% 标注数据,比肩全量标注的模型效果!
不知道大家有没有遇到过数据标注成本高、周期长的困扰,有没有那么一种可能,精心标注少量的数据,配合大量的无标注数据,就能达到比肩全量标注的模型精度呢?是的,PaddleX 就带来了这样一款提效神器——大模型半监督学习工具。
大模型半监督学习工具利用视觉大模型的强大特征表征能力和 PaddleX 的特色半监督学习方法,其可以在少量有标注数据和大量无标注数据的混合数据上学习到更好的特征,从而得到超高精度的大模型,不仅如此,该工具内置了蒸馏和微调小模型的方法,进一步可以得到精度更高的小模型。为了验证该工具的有效性,我们测试了其在公开数据集的指标。最终,该工具刷新了图像分类(ImageNet 10%有标注)、目标检测(COCO 10%有标注)的半监督学习 SOTA 精度。
该工具有以下几个特点,如果正合您的需求,欢迎尝试使用!
减少标注数据: 该工具对 CLIP 等视觉大模型的下游任务训练进行了调优,通过相关配置和预训练权重设置,其可以在少量有标注数据上学习到目标场景的图像特征,和其他模型相比,达到相同精度时所需要的有标注的数据更少。且该工具集成了更好的半监督学习算法,可以更好地利用无标注数据从而进一步降低标注数据的需求。
提高模型精度: 该工具使用大模型在更多无标签数据循环迭代训练,可以得到精度更高的大模型。与此同时,使用该大模型和无标签数据,可以更好地将大模型学习到的知识传授给小模型,从而提升小模型精度。
减少模型研发成本: 该工具提供了 UI 界面,工具内置算法的很多关键参数均已在前端展现,用户可以直接在前端页面调试参数,通过简单地点击 UI 页面上的按钮即可完成精度更高的模型的研发,大大提升研发高精度模型的效率。
提升模型推理速度: 该工具内置了不同推理耗时的精选小模型,用户可以根据实际需要选择速度更快的小模型,从而提升最终的推理速度(该工具可以得到精度相近但是参数量更小、推理速度更快的模型)。
目前,该工具支持图像分类、目标检测、OCR 识别三类视觉任务 17 个模型,大家无需关心细节,只需提供更多无标注数据,点击两次按钮,即可得到高精度的大模型和小模型。下面我们一起看下三大工具的超能力!
效果展示
图像分类-大模型半监督学习工具
公开数据集
该工具在公开数据集 ImageNet 10%数据上进行了验证。使用该工具后,在 ImageNet 10% 有标签数据+90%无标签数据上,大模型相比直接训练,精度高 1.2 个百分点(84.2%->85.4% ),不仅如此,同时超越了当前半监督学习 SOTA 方案(85.1%->85.4% );小模型(ResNet50)相比直接训练,精度高了 26 个百分点以上(54%->80.3% ),即使和当前 ResNet50 在该数据集的半监督学习 SOTA 比,也高了将近 3 个百分点(77.5%->80.3% ),不仅如此,甚至比该模型在 ImageNet 全量数据训练的精度高 4 个百分点(广泛使用的精度为 76.3% )。
场景数据集
除了验证公开数据集,我们还在 8 个图像分类的场景数据进行了验证。相比直接训练,使用该工具后,大模型和小模型的精度均有大幅提升。
立即在线体验:
https://aistudio.baidu.com/projectdetail/paddlex/7045718
目标检测-大模型半监督学习工具
公开数据集
该工具在公开数据集 COCO 10%数据上进行了验证。下图展示了该工具在公开数据集 COCO 10%的指标情况。使用该工具后,在 COCO 10%有标签数据+90%无标签数据上,大模型(RT-DETR-H)相比直接训练,mAP 高了 3.5 个百分点(47.7%->51.2% ),刷新了该数据集的半监督学习 SOTA(43.5%->51.2%) 。小模型(PP-PicoDet_s_320_LCNet)相比直接训练,mAP 高了 13 个百分点以上(18.3%->32.0% ),接近全量有标注数据训练的结果(32.5% )。
场景数据集
除了验证公开数据集,我们还在 3 个不同的目标检测的场景数据进行了验证,下面展示了目标检测应用中的 3 个场景使用该工具后的效果,可以看到,在不同的场景中,大模型和小模型的 mAP 均有大幅提升。
立即在线体验:
https://aistudio.baidu.com/projectdetail/paddlex/7045736
文本识别-大模型半监督学习工具
在 OCR 文本识别中,我们使用该工具验证了两个常见的任务,即手写字体识别和通用 OCR 识别。使用该工具后,大模型和小模型的精度均有大幅提升。
立即体验:https://aistudio.baidu.com/projectdetail/paddlex/7045737
技术思路
大模型半监督学习工具借助了 CLIP 等视觉大模型或多模态大模型的强大特征预训练,将其在有标注数据上微调得到一个确定场景的大模型,然后将其不断在无标注数据和有标注数据的混合数据上循环训练,得到一个在该场景中精度高的大模型。在此基础上,通过两阶段知识蒸馏或微调,借助更多的数据,将大模型强大的知识传授给小模型,从而得到一个速度快且精度高的小模型。整体流程如下:
为了让大模型半监督学习工具在不同任务上有较好的泛化性,PaddleX 团队在图像分类、目标检测、OCR 识别任务上分别进行了广泛的针对性适配和调优,每个工具的算法细节都不尽相同。不仅如此,为了大家使用方便,我们发布的三个不同视觉任务的大模型半监督学习工具尽可能保持了使用方式上的统一。
结语
PaddleX 是面向国内外主流 AI 硬件的,全流程、高效率的飞桨精选 AI 模型的一站式 AI 开发套件。PaddleX 的使命是助力 AI 技术快速落地,愿景是使人人成为 AI Developer!
大模型半监督学习工具已重磅上线 PaddleX!快来体验这款提效神器吧!
点击下方链接加入 PaddleX 官方频道,和大家一起讨论开发经验:
版权声明: 本文为 InfoQ 作者【飞桨PaddlePaddle】的原创文章。
原文链接:【http://xie.infoq.cn/article/89e62712980fc317cf02a497c】。文章转载请联系作者。
评论