游戏夜读 | 跟风说一说爬虫

用户头像
game1night
关注
发布于: 2020 年 07 月 06 日

爬虫,原本是一类动物的指代。但对熟悉计算机网络的人来说,说起爬虫,第一个想到的就是网络数据的采集行为。



计算机网络不是直观的事物,它不像自行车一样一目了然。对于自行车,我们不仅熟悉车把、链条、坐垫、脚踏板、轮胎、轴承等配件,也能亲身体验速度、惯性、平衡的物理奥妙。但计算机网络不同,除了电缆、光纤,其他的都神秘。



想要化身电流的一份子:电子。体验一趟趟云霄飞车、电击、拥挤、千锤百炼……不妨想象一下超大型过山车的感受。



网络不仅是一种技术,更是我们用来存储、获取、交流信息的工具。其中跟我们关心的信息,关系最紧密的一个概念,可能非“网络协议”莫属了。网络协议本身的内容挺复杂,也有不少的标准,实际操作中一般都会提到:网络协议三要素。



是哪三要素呢?常见的说法是,语法,语义,时序。语法会定义计算机网络语言,基本上是一些数据符号的事情,通常被解释为“怎么讲”。语义,就跟我们所理解的信息内容非常接近了,基本上是讲怎么把那些干涩的数据符号吃透:弄明白今天的一个字母代表的是苹果,到了明天这个字母就是代表香蕉了,诸如此类,通常被解释成“讲什么”。时序,有时也全称为时序规则,主要是时间上的考量和分析,一般不直接挂钩被传递的信息内容。



说到这里,我们日常在计算机网络上搜索、讨论、发文件等等,除了网速快慢,主要涉及语法、语义。话说回来,爬虫就是模仿人类上网冲浪的行为,可以把一个个爬虫程序理解成是一个个网络机器人,由此,爬虫工程师也就不那么神秘了。



文/良宵听雨。授权“游戏夜读”发表。



发布于: 2020 年 07 月 06 日 阅读数: 41
用户头像

game1night

关注

烦请督促我的游戏功课喔! 2017.04.06 加入

计划坚持创作以“游戏夜读”为主题的短文,并以这些杂文作为连载公开发布。烦请大家一起督促我的游戏功课喔!欢迎关注和阅读,如有不足,可直接留言批评,会继续努力!

评论

发布
暂无评论
游戏夜读 | 跟风说一说爬虫