写点什么

搜索引擎基础《解开网络密钥 - 互联网研究指南》

  • 2023-09-01
    广东
  • 本文字数:699 字

    阅读完需:约 2 分钟

1997 年 9 至 10 月刊的 IEEE Internet Computing 估计全球信息网包含了超过 1 亿 5 千万页的信息。在 1998 年底,该网站的规模已经扩大到超过 5 亿页。到 2000 年初,最好的估计数目超过 10 亿,并且到 2000 年中,有一项研究表明在互联网上有超过 55 亿个唯一的文档。自 1995 年以来一直进行互联网调查的 Netcraft 在其 2006 年 11 月的调查中报告说,现在有超过 1 亿个网站。“达到 1 亿网站的里程碑标志着一个不同寻常的年份,在这一年中,互联网已经增加了 2 千 7 百 40 万个网站,轻松超过了 2005 年的前一年全年的增长记录,即 1 千 7 百万。自 2004 年 5 月调查达到 5 千万以来,互联网的规模已经翻了一番。”推动这一繁荣的主要因素是免费的博客网站、小型企业以及建立网站的相对较低的成本。另外一项最近的调查发现:

1、万维网上表面的信息大约有 170TB;容量相当于美国国会图书馆印刷品集合的 17 倍。

2、即时通讯每天生成 50 亿条信息(750GB),或每年 274TB。

3、电子邮件每年在全球范围内生成约 400,000TB 的新信息。

数字几乎不再重要。因特网巨大的规模意味着我们必须使用某种搜索工具来查找信息。否则,我们就像是在广阔的未知海洋中迷失的航海者。

现在所有主要的搜索引擎都可以索引超过十亿条信息。问题通常不是缺乏数据,而是在几乎无限大小的虚拟“干草堆”中找出那根微小的“针”(这就像在一堆“针”中找“针”)。

任何认真的研究者,需要了解比一般人更多的搜索引擎知识,而一般使用网络是为了娱乐,或即使是为了某个业余爱好或某个特定主题(例如癌症研究)进行非常专业的搜索。您如何学习搜索的细节?

请考虑以下情况:当您进行搜索时,您在不到 30 秒的时间内浏览的信息量,可能超过了一位图书管理员在 30 年前的整个职业生涯中可以扫描的信息量。

用户头像

还未添加个人签名 2018-11-15 加入

还未添加个人简介

评论

发布
暂无评论
搜索引擎基础《解开网络密钥 - 互联网研究指南》_卿卿子衿嘤嘤我心_InfoQ写作社区