阿里研究员华先胜:图像搜索的前世今生
一、热闹非凡的视觉识别和搜索
这些年计算机视觉识别和搜索这个领域非常热闹,出现了很多的创业公司,大公司在这方面也花了很多力气在做。
二、图像搜索的定义和分类
图像搜索的方法从 Query 角度可分为三类:
• 以文本搜索作为搜索的入口。
• 以图像样例作为搜索的入口。
• 文本、图像的组合搜索。
三、图像搜索——从火热到没落,再到兴起
最早在二十世纪九十年代时,那个时候叫做 CBIR(Content-BasedImage Retrieval),即基于内容的图像检索。但是那时基本上只能在几千、几万幅图上进行检索,而且检索的效果很难保证。当时有一个一直流行到现在的词叫做“语义鸿沟”,因为当时的特征难以区分下图所示的两种 Case。
这个方向到了 2000 年之后,我们有时候开玩笑把它叫做 Sunset Project,也就是像落日一样没有太大的希望了。
四、深度学习的威力
在深度学习出来之后,它可以让我们去按照自己所想要达到的目标,去学习一个神经网络,通过这个神经网络去抽取图像的特征。
实际上搜索跟识别是密不可分的,尤其是在做大规模图像搜索时,识别、检测必不可少。识别有时也是要通过搜索来完成的,例如,如果你类别非常多的时候,往往要通过搜索的方法来实现,而不是通过模型的方法来做识别。所以搜索和识别在大数据时代的界限变得越来越模糊了,它们之间互相需要,互相利用。
五、图像搜索系统的四个基本要求
首先是相关性,覆盖率,其次是伸缩性和用户体验。
六、图像搜索的主要应用领域
图像搜索主要可以在以下领域应用:1)信息的获取。2) 拍照购物。3)娱乐。4) 监控。5)其他。个人认为,目前端到端的应用,电商拍照购物搜索是最 solid 的一个应用场景。
七、商品图像搜索的关键技术
1. 相关性
2. 覆盖率
3. 伸缩性
以上是关于电商图片搜索的内容,最后再给大家分享一些电商搜索产品的例子。下面这个产品叫做“拍立淘”,在手机淘宝搜索框的右边有一个小的摄象头图标,点这个图标就能进入“拍立淘”的界面。
总结而言,对于一个真正的应用产品来讲,视觉搜索和图像识别确实仍有很多的挑战,但同时也有很多的机会。尤其是现在这个时代,技术方面有深度学习的技术、大数据分析处理的技术,包括分布式计算这样一些平台。数据的获取也非常容易,人人都有手机,每个手机又都有相机,就有了大量的图形数据和大量活跃的用户,使得有机会让图像搜索的问题得到本质上的改善。
八、图像搜索的明天
四个方面结合起来:数据、用户、模型和系统。这四个方面放在一起,可能不断地缩小语义鸿沟,使得我们的搜索“所想”就能够得到“所得”。
版权声明: 本文为 InfoQ 作者【阿里技术】的原创文章。
原文链接:【http://xie.infoq.cn/article/3ddfff5e0c8ef47b68194f341】。未经作者许可,禁止转载。
评论