写点什么

《自己动手写网络爬虫》.pdf

用户头像
田维常
关注
发布于: 2020 年 11 月 05 日

关注公众号Java后端技术全栈”**



回复“面试”获取全套面试资料



什么是爬虫?



爬虫的全名叫网络爬虫。他还有其他的名字,比如网络机器人,网络蜘蛛等等。



爬虫有简单的爬虫和复杂的爬虫。简单的爬虫是一种脚本,脚本是粗糙但却非常实用的小程序。例如,如果要从一个租房的网站上读取关于出租的公寓信息,一条一条去抄写肯定是不现实的。所以就要用爬虫,把一个信息类网站上几千条信息一次全部扒下来。



简单来讲,爬虫就是一个探测机器,它的基本操作就是模拟人的行为去各个网站溜达,点点按钮,查查数据,或者把看到的信息背回来。就像一只虫子在一幢楼里不知疲倦地爬来爬去。





大多数网络爬虫的开发原理与技巧在专业的公司内部都秘而不宣。至今仍然缺少理论与实践相结合的专门介绍网络爬虫的书籍。最近很多小伙伴问我要一些 网络爬虫 相关的资料,于是我翻箱倒柜,找到了这本非常经典的电子书——《自己动手写网络爬虫》。



资料介绍



《自己动手写网络爬虫》从基本的爬虫原理开始讲解,之后根据当前风起云涌的云计算热潮,重点讲述了云计算的相关内容及其在爬虫中的应用。在介绍基本原理的同时,注重辅以具体代码实现来帮助读者加深理解,书中部分代码甚至可以直接使用。本书适合需要具体实现搜索引擎的程序员使用,对于信息检索等相关研究人员也有一定的参考价值。





如何获取?



  1. 识别二维码并关注公众号「Java后端技术全栈」;

  2. 在公众号后台回复关键字「155





用户头像

田维常

关注

关注公众号:Java后端技术全栈,领500G资料 2020.10.24 加入

关注公众号:Java后端技术全栈,领500G资料

评论

发布
暂无评论
《自己动手写网络爬虫》.pdf