爬虫知识记录之一
什么是爬虫
1、什么是互联网?
互联网是由网络设备(网线,路由器,交换机,防火墙等等)和一台台计算机连接而成,像一张网一样。
2、互联网建立的目的?
互联网的核心价值在于数据的共享/传递:数据是存放于一台台计算机上的,而将计算机互联到一起的目的就是为了能够方便彼此之间的数据共享/传递,否则你只能拿 U 盘去别人的计算机上拷贝数据了。
3、什么是上网?爬虫要做的是什么?
我们所谓的上网便是由用户端计算机发送请求给目标计算机,将目标计算机的数据下载到本地的过程。
3.1 只不过,用户获取网络数据的方式是:
浏览器提交请求->下载网页代码->解析/渲染成页面。
3.2 而爬虫程序要做的就是:
模拟浏览器发送请求->下载网页代码->只提取有用的数据->存放于数据库或文件中
3.1 与 3.2 的区别在于:
我们的爬虫程序只提取网页代码中对我们有用的数据
4、总结爬虫
4.1 爬虫的比喻:
如果我们把互联网比作一张大的蜘蛛网,那一台计算机上的数据便是蜘蛛网上的一个猎物,而爬虫程序就是一只小蜘蛛,沿着蜘蛛网抓取自己想要的猎物/数据
4.2 爬虫的定义:
向网站发起请求,获取资源后分析并提取有用数据的程序
4.3 爬虫的价值:
互联网中最有价值的便是数据,比如天猫商城的商品信息,链家网的租房信息,雪球网的证券投资信息等等,这些数据都代表了各个行业的真金白银,可以说,谁掌握了行业内的第一手数据,谁就成了整个行业的主宰,如果把整个互联网的数据比喻为一座宝藏,那我们的爬虫课程就是来教大家如何来高效地挖掘这些宝藏,掌握了爬虫技能,你就成了所有互联网信息公司幕后的老板,换言之,它们都在免费为你提供有价值的数据。
学习小结:
1.爬虫分类:通用爬虫、聚焦爬虫
2.爬虫的流程:向起始 url 发送请求,并获取响应,对响应进行提取,如果提取 url,则继续发送请求获取响应,如果提取数据,则将数据进行保存
3.robots 协议:告诉搜索引擎哪些页面可以抓取, 那些页面不能抓取,但它仅仅是互联网中的一种约定.
4.http、https 的概念和区别:http: 超本文传输协议 ,https: HTTP + SSL,即带有安全套接字层的超本文传输协议
5.浏览器发送 HTTP 请求的过程:浏览器先向地址栏中的 url 发起请求,并获取响应 在返回的响应内容(html)中,会带有 css、js、图片等 url 地址,以及 ajax 代码,浏览器按照响应内容中的顺序依次发送其他的请求,并获取相应的响应 浏览器每获取一个响应就对展示出的结果进行添加(加载),js,css 等内容会修改页面的内容,js 也可以重新发送请求,获取响应 从获取第一个响应并在浏览器中展示,直到最终获取全部响应,并在展示的结果中添加内容或修改
6.url 的请求形式:scheme://host[:port#]/path/…/[?query-string][#anchor]
7.常见的请求方法以及响应代码:get or post
评论