写点什么

搜索引擎基础《解开网络密钥 - 互联网研究指南》

  • 2023-09-01
    广东
  • 本文字数:1166 字

    阅读完需:约 4 分钟

搜索引擎包含三个基本组成部分:

  1. 蜘蛛/机器人/爬行器是一种软件,用于访问互联网上的网站(每个搜索引擎的访问方式都不同)。蜘蛛读取网站上的内容,跟踪网站上的链接,并最终将所有数据带回;

  2. 搜索引擎索引、目录或数据库,其中存储了蜘蛛找到的所有内容;

  3. 搜索引擎软件,该软件实际上对索引中的所有内容进行筛选,找到匹配项,然后按顺序排列或排序成结果或命中列表。


关于搜索引擎的重要考虑因素:

1、蜘蛛被编程为定期返回网站,但时间间隔因引擎而异。每月或更好被认为是“新鲜的”。

2、 当您使用搜索引擎时,您正在搜索索引或数据库,而不是网页本身。这一点很重要,因为没有任何搜索引擎以“实时”方式运行。

3、蜘蛛不会索引它们找到的所有网页,包括采用“机器人排除协议”或“机器人 META 标签”的网页。这些机制中的第一个是网站管理员用来指示哪些部分网站不应该由机器人或蜘蛛访问的特殊文件。第二个是可以通过网页作者插入的特殊 HTML 元标记,用于指示网页是否可以索引或分析链接。不是每个机器人/蜘蛛都尊重这些机制。密码保护、防火墙和其他措施通常可以阻止蜘蛛爬行网站并对其进行索引。


机器人排斥

有时人们发现他们已经被一个索引抓取机器人索引,或者资源发现机器人已经访问了网站的某些部分,而由于某些原因不应该让机器人访问这部分。


为了解决这个问题,许多 Web 机器人提供了 Web 站点管理员和内容提供商用来限制机器人的行为的设施。这是通过两种机制实现的:

1、机器人排斥协议 Web 站点管理员可以通过在站点上提供一种特殊格式的文件,以指示哪些部分不应由机器人访问,这是通过 http//./robots txt 来实现的。

2、机器人 meta 标签 Web 作者可以通过使用一个特殊的 HTivil.,META 标签来指示一个页面是否可以被索引或分析链接。

本页的其余部分提供了这些设施的完整详细信息。

请注意,这些方法依赖于来自机器人的合作,并不能保证对每个机器人都有效。如果您需要更强的保护免受机器人和其他代理的干扰,您应该使用其他方法,如密码保护


Robots Exclusion 页

并非每个搜索引擎都有自己的专有搜索程序,而是依赖于另一个公司的搜索服务来获得搜索结果。现在,大多数这些战略联盟都涉及到雅虎、谷歌和 Windows Live Search。所有这些合作伙伴关系都有可能不另行通知而改变;有关这些战略联盟的更多信息。


搜索引擎联盟

知道雅虎是一个搜索引擎的搜索工具后,可以节省您的时间,因为您可以非常肯定地使用 AltaVista 将获得与其它由雅虎驱动的搜索引擎相似的(虽然不是完全相同)结果。至关重要的是要记住,每一个由特定的搜索引擎驱动的服务即使使用相同的核心数据库也会产生不同的结果。为什么会这样呢?因为搜索接口有自己的算法,它们决定如何运行查询、如何返回结果,甚至决定是否查询整个数据库(大多数搜索引擎并不查询整个数据库)。简而言之,为了获得最佳结果,请访问主要的搜索引擎-Google、雅虎或 Live Search。


用户头像

还未添加个人签名 2018-11-15 加入

还未添加个人简介

评论

发布
暂无评论
搜索引擎基础《解开网络密钥 - 互联网研究指南》_卿卿子衿嘤嘤我心_InfoQ写作社区