写点什么

深入理解搜索引擎——开篇

用户头像
药老算法
关注
发布于: 53 分钟前
深入理解搜索引擎——开篇

什么是搜索引擎?

搜索引擎,一般分为大搜和垂搜,其中大搜包含我们熟知的 google、baidu、搜狗、神马及近期比较活跃的夸克,垂搜包含各领域门户网站的搜索引擎,例如电商搜索(淘宝、天猫、京东及拼多多等等)、本地生活搜索(美团、饿了么及盒马搜索)、资讯、视频搜索(头条、抖音、微博搜索)等。


从 20 世纪 90 年代初期发展至今,搜索引擎已经充斥到了生活中各个场景,目前发展为每个人离不开的重要工具,那么搜索引擎经历哪些发展过程?涉及了哪些技术?有哪几个核心问题?又是如何评价一个搜索引擎好坏的?我们今天就来系统的梳理一下,什么是搜索引擎。


搜索引擎是指的各类型的搜索平台运用特定的脚本及程序从互联网上采集内容生产者的信息,再对信息进行清洗、处理、组织及整合后保存至平台索引系统中,供内容消费者按照一定的用户需求及特定的策略检索出索引内容的一门搜索技术。


  • 内容生产者:包含互联网上的各个网站、文章,整个互联网

  • 平台:大搜平台,垂搜平台

  • 内容消费者:各场景对应的用户


搜索引擎从技术上分为全文检索引擎向量检索引擎。针对全文检索引擎,有比较基础的 lucene 系,solr 和 ElasticSearch 都是基于 lucene 做的二次封装提供的分布式全文检索引擎,各大厂也针对 solr 和 ElasticSearch 做了很多的优化和改动已适配属于自己的搜索引擎,当然,随着技术的更新以及业务的发展,很多大厂也走上了独立研发的道路以适应更复杂的应用场景,例如百度、阿里等。



主流向量检索方法有:Faiss、Brute Force、KD-Tree、KNN Graph、LSH 、Product Quantization 等。不同的方法有不同的适用场景,例如 Brute Force 适合小数据量、KD-Tree 适合 20 维以下的数据、PQ 适合中高维数据降维等。对于某些数据集和数据分布,有时也需要几种方法相互配合,方能得到更好的效果。目前向量检索引擎主要的运用于图像搜索、商品推荐及视频指纹识别等场景



搜索引擎从过程上分为爬虫、索引、query 理解、召回和排序等模块。此文不作详细介绍,后续会专门针对这些模块进行详解,概览如下:



今天,随着大数据时代的成熟以及人工智能时代的蓬勃发展,搜索引擎也面临着几个重要的核心问题。


一、用户需要什么?

用户在搜索引擎输入的 query 词相对简短,在笔者这几年做搜索引擎的经验来讲,用户的 query 查询评价长度在 2.7 个单词左右。那么如何在如此短的请求里挖掘出用户真正需要的是什么?这也就是现代搜索引擎需要解决的重要问题。


然而,在真实的搜索场景中,同一个 query 词,不同的用户的需求和目的也是不同的。举个栗子,在教育课程垂搜领域,一个小学老师输入“数学”和一个中学老师输入“数学”,他们想要的课程可能是不同学段的,那么如何识别这种不同需求也是搜索引擎需要解决的问题。这也是移动互联网时代个性化搜索和语义搜索能得到快速发展的原因。


二、哪些信息是用户最相关的

搜索引擎的本质是一个匹配、排序的过程,即从海量的数据里找到能够符合用户需求的内容,所以在明确用户的真实意图后,如何能找到满足用户需求的信息则成了搜索引擎是否准确的关键因素。


从搜索引擎发展至今,内容相关性一直都是信息领域的核心研究课题,从最初的文本检索,google 提出的链接分析技术再到现在的以用户中心为基础的内容建设,都是为了解决搜索相关性的问题。


三、如何提升信息的信赖程度

搜索的本质是提供能够满足用户需求的信息,但在一次搜索过程中单纯满足用户需求是不够的,因为还要看这条信息是否是准确的,所以信息是否值得信赖也是搜索过程中一个重要的衡量标准。


比如,在很多时候我们向某度、某乎、某条查询我们想要知道的内容,返回的结果可能存在多条矛盾或者互斥的搜索结果。这就增加了用户主动搜索的不确定性风险,因为搜到的内容非常不可控。很多青少年甚至中老年人,前者缺乏一定的生活经验,后者欠缺必要的信息筛选训练。这两类人非常容易成为互联网诈骗的重灾区。这也是近年来为什么很多 fake News 的测评任务及比赛,像疫情期间的“疫情期间互联网虚假新闻检测”,因为信息的可信度在当今社会是非常重要的。


那么如何判断一个搜索引擎好不好用,主要有 3 点,是否高效?是否稳定?是否精准?,这里小编着重讲一下精准问题,还记得两年前一篇题为《搜索引擎百度已死》的文章刷爆朋友圈,这里不赘述,有兴趣的可以到搜索引擎中查询,小编想讲的主要是现在的搜索引擎,不管大搜还是垂搜,其实都已充斥着各种商业化,各类竞价推广,关键词优化,用户根本分不清,自己搜到的是不是广告。



公司需要盈利,但如果单纯以广告充斥的各类搜索结果,那么这样的搜索引擎也很难走远,很多人会说,google 也有广告,为何能发展这么好?因为广告也是一门技术,搜索引擎如何让用户能获取到最想要、最正确的搜索结果又不会直接感受到搜索结果充斥着商业化,这是搜索引擎未来发展的一条路,显然 google 在这块是做的比较好的。


另一条则是干净、简单的搜索引擎,就比如像夸克,广告词就是“没有广告”,但夸克也是一个商业产品,本质上还是以盈利为目的。不知未来会依然坚持无广告模式作一股清流,还是选择走上广告变现之路呢?只有时间来证明了。




最后欢迎关注同名微信公众号:药老算法(yaolaosuanfa),带你领略搜索、推荐等数据挖掘算法魅力。

发布于: 53 分钟前阅读数: 9
用户头像

药老算法

关注

公众号:药老算法,专注搜索推荐及数据挖掘 2020.06.02 加入

还未添加个人简介

评论

发布
暂无评论
深入理解搜索引擎——开篇