游戏夜读 | 跟风说一说爬虫
爬虫,原本是一类动物的指代。但对熟悉计算机网络的人来说,说起爬虫,第一个想到的就是网络数据的采集行为。
计算机网络不是直观的事物,它不像自行车一样一目了然。对于自行车,我们不仅熟悉车把、链条、坐垫、脚踏板、轮胎、轴承等配件,也能亲身体验速度、惯性、平衡的物理奥妙。但计算机网络不同,除了电缆、光纤,其他的都神秘。
想要化身电流的一份子:电子。体验一趟趟云霄飞车、电击、拥挤、千锤百炼……不妨想象一下超大型过山车的感受。
网络不仅是一种技术,更是我们用来存储、获取、交流信息的工具。其中跟我们关心的信息,关系最紧密的一个概念,可能非“网络协议”莫属了。网络协议本身的内容挺复杂,也有不少的标准,实际操作中一般都会提到:网络协议三要素。
是哪三要素呢?常见的说法是,语法,语义,时序。语法会定义计算机网络语言,基本上是一些数据符号的事情,通常被解释为“怎么讲”。语义,就跟我们所理解的信息内容非常接近了,基本上是讲怎么把那些干涩的数据符号吃透:弄明白今天的一个字母代表的是苹果,到了明天这个字母就是代表香蕉了,诸如此类,通常被解释成“讲什么”。时序,有时也全称为时序规则,主要是时间上的考量和分析,一般不直接挂钩被传递的信息内容。
说到这里,我们日常在计算机网络上搜索、讨论、发文件等等,除了网速快慢,主要涉及语法、语义。话说回来,爬虫就是模仿人类上网冲浪的行为,可以把一个个爬虫程序理解成是一个个网络机器人,由此,爬虫工程师也就不那么神秘了。
文/良宵听雨。授权“游戏夜读”发表。
版权声明: 本文为 InfoQ 作者【game1night】的原创文章。
原文链接:【http://xie.infoq.cn/article/886aec99a3b868d9e08c38272】。未经作者许可,禁止转载。
评论