写点什么

计算机视觉前沿:自监督学习与高效学习挑战

作者:qife122
  • 2025-08-13
    福建
  • 本文字数:1877 字

    阅读完需:约 6 分钟

计算机视觉前沿:自监督学习与高效学习挑战

计算机视觉与模式识别会议(CVPR)是计算机视觉领域的顶级会议,始于 1985 年。某中心研究员 Pietro Perona 于 1988 年首次参加该会议,当时他还是加州大学伯克利分校的研究生。


"当时,计算机视觉是一个充满远见的领域——双关语 intended——我们试图解决如何让机器'看'的问题,"Perona 说。"整个会议可能只有 200 人。我们基本上没有明确的进展方向,只能尝试不同方法,试图将复杂的视觉问题分解为更简单的问题。结果并不理想。而现在,我们看到会议上展示的系统能在非常困难的问题上表现出色。成功水平和雄心壮志完全不同。"


这种成功很大程度上源于深度学习,它取代了许多早期的计算机视觉技术。但 Perona 指出,在 CVPR 的前 25 年里,计算机视觉研究人员并非没有认识到深度学习的作用。直到 2010 年左右,使用深度学习解决计算机视觉问题才成为可能。


"深度学习自 80 年代末就存在,"他说,"但我们根本没有足够的计算能力在复杂图像上进行大规模实验。直到 2008、2009 年,性能良好的 GPU 开始出现。然后,计算机视觉领域的研究人员必须学习如何为这些 GPU 编程。当时没有专门的软件工具,人们只能手工编写软件。"


另一个因素是 2005 至 2010 年间出现的大规模、标注良好的图像数据集。"这得益于两件事:一是互联网突然提供了大量可用图像;二是 2005 年出现的某中心 Mechanical Turk 服务,没有它我们不可能获得这些大型标注数据集。有趣的是,在某中心内部,人们并不太了解,但 Mechanical Turk 是 AI 革命发生的三大因素之一。没有它,ImageNet 和 COCO 这样的数据集就不可能存在。"

未达到的高度

尽管深度学习在物体识别等经典计算机视觉任务上取得了成功,但在某些方面进展甚微,Perona 表示。


"一个障碍是学习效率,"他说。"我们团队有一篇关于动植物分类的论文。如果每个类别(每种鸟类或蝴蝶)有 10,000 张图像,机器的准确率会超过人类。但效率相差甚远。如果我给你一个从未见过的新物种,展示 3 到 5 张图片,你就能识别该物种。机器则做不到。"


尝试突破这一障碍有科学原因,Perona 说。"人类并不拥有特殊类型的计算方式,所以机器应该也能做到。我们想理解人类这种卓越能力的工作原理。"


但也有实际原因需要考虑学习效率问题。"在工业或科学中使用机器视觉时,常见的事物往往不太重要,罕见的事物更重要,"Perona 解释道。"世界是一个长尾分布。少数事物非常常见,大多数事物则很少见。你想看到大象过马路有多频繁?但如果要制造自动驾驶汽车,它们应该能处理大象过马路的情况。"


深度学习难以复制的另一个人类视觉推理能力是抽象能力,Perona 说。"目前,我们需要用多样化背景训练机器。如果你想训练机器识别蟾蜍,必须展示各种环境和姿势下的蟾蜍图片,机器才能抽象出蟾蜍的概念。如果你总是用相同壁纸或纯色背景下的蟾蜍图片训练机器,它就无法处理新场景中的蟾蜍。或者以海滩上的牛为例:机器很难识别位于图片正中间、站在海滩上的牛。所以我们知道机器看待物体的方式与我们不同。它们无法从训练样本中抽象出这些物体的属性。什么是牛的脸?如何将牛的脸与狗的脸、人的脸联系起来——机器还做不到这一点。"

自监督学习

在机器的学习效率和抽象能力能与人类匹敌之前,Perona 说"需要新的见解"。但在短期内,这两个方面的进展可能来自自监督学习,他说这一主题近年来在 CVPR 上越来越受欢迎。


"即使没有人教机器寻找什么,机器也能以某种方式自我学习,为下一项任务做准备,"Perona 解释道。"假设我们有 100 万张图像,但没有标签告诉机器每张图片的内容。机器有多余的 CPU 周期,它能做什么?所有图像都是朝上的,天空在上,地面在下。但机器可以随机翻转一些图片,训练自己识别图像是否被翻转。另一个游戏是:每张图像都是彩色的,有 RGB 三个通道。所以可以尝试从红色和蓝色预测绿色。"


"事实证明,为了在这些游戏中获胜,机器必须发展出对图像关键特征的某种感知。一个关键特征是树木以某种方式从地面向上生长。因此它必须识别树木或其他种植在地面上的物体的结构,以区分地面和非地面部分。它没有高层次的语义知识,但确实发展出了一些为下一步做准备的特征。"


"举一个更高级的例子:我和我的学生有一篇论文展示了机器如何仅通过摆弄物体来学习数字概念。假设你有几颗 M&M 巧克力豆,只是把它们扔进面前的杯子里,然后拿起一颗移开或放入一颗,或者只是像孩子那样重新排列它们。我们证明机器能够纯粹通过摆弄小物体、取出一个、放入一个等动作来学习数字这一抽象概念。有趣的是,这种抽象概念能在完全没有监督的情况下产生。"更多精彩内容 请关注我的个人公众号 公众号(办公 AI 智能小助手)或者 我的个人博客 https://blog.qife122.com/公众号二维码


办公AI智能小助手


用户头像

qife122

关注

还未添加个人签名 2021-05-19 加入

还未添加个人简介

评论

发布
暂无评论
计算机视觉前沿:自监督学习与高效学习挑战_计算机视觉_qife122_InfoQ写作社区