《自己动手写网络爬虫》.pdf
关注公众号“Java后端技术全栈”**
回复“面试”获取全套面试资料
什么是爬虫?
爬虫的全名叫网络爬虫。他还有其他的名字,比如网络机器人,网络蜘蛛等等。
爬虫有简单的爬虫和复杂的爬虫。简单的爬虫是一种脚本,脚本是粗糙但却非常实用的小程序。例如,如果要从一个租房的网站上读取关于出租的公寓信息,一条一条去抄写肯定是不现实的。所以就要用爬虫,把一个信息类网站上几千条信息一次全部扒下来。
简单来讲,爬虫就是一个探测机器,它的基本操作就是模拟人的行为去各个网站溜达,点点按钮,查查数据,或者把看到的信息背回来。就像一只虫子在一幢楼里不知疲倦地爬来爬去。
大多数网络爬虫的开发原理与技巧在专业的公司内部都秘而不宣。至今仍然缺少理论与实践相结合的专门介绍网络爬虫的书籍。最近很多小伙伴问我要一些 网络爬虫 相关的资料,于是我翻箱倒柜,找到了这本非常经典的电子书——《自己动手写网络爬虫》。
资料介绍
《自己动手写网络爬虫》从基本的爬虫原理开始讲解,之后根据当前风起云涌的云计算热潮,重点讲述了云计算的相关内容及其在爬虫中的应用。在介绍基本原理的同时,注重辅以具体代码实现来帮助读者加深理解,书中部分代码甚至可以直接使用。本书适合需要具体实现搜索引擎的程序员使用,对于信息检索等相关研究人员也有一定的参考价值。
如何获取?
识别二维码并关注公众号「Java后端技术全栈」;
在公众号后台回复关键字「155」
评论