写点什么

python 爬虫入门 - 通过茅台脚本讲些爬虫知识,应用和价值

用户头像
大佬sam
关注
发布于: 2021 年 02 月 01 日
python爬虫入门-通过茅台脚本讲些爬虫知识,应用和价值

前言

前段时间抢茅台脚本非常火,它是 Python 脚本,加上刚好最近在学习 Python,我们准备通过这个脚本,来加深学习 Python。


抢茅台的脚本其实属于爬虫脚本的一类,它实现了模拟登陆,模拟访问并抓取数据。于是我们从爬虫开始来学习 Python 做项目。从这篇开始记录下爬虫相关的笔记和知识点。


正文

什么是爬虫

到底什么是爬虫?你可以理解为爬虫是互联网上的一只蜘蛛,如果遇到一些网络数据或资源,这只“蜘蛛”可以把这些数据和资源爬取下来。


官方地讲,爬虫是请求网站并提取数据的自动化程序


使用茅台脚本来举例,脚本程序实现模拟登陆京东账号,保存登陆信息,也实现访问商品-茅台,并且帮你抢购商品,成功下订单等等。这类似于你打开京东网站登陆账号密码,浏览商品并下单的操作,脚本将这些操作都实现,形成一个自动化的程序。


爬虫分类

通用爬虫

通用网络爬虫是捜索引擎抓取系统(Baidu、Google、Yahoo 等)的重要组成部分。主要目的是将互联网上的网页下载到本地,形成一个互联网内容的镜像备份。

比如你发布的网站,需要给搜索引擎(百度)爬取过,才能在对应的搜索引擎(baidu)上搜索到。


聚焦爬虫

聚焦爬虫,是"面向特定主题需求"的一种网络爬虫程序,它与通用搜索引擎爬虫的区别在于: 聚焦爬虫在实施网页抓取时会对内容进行处理筛选,尽量保证只抓取与需求相关的网页信息。

抢购脚本就是这种“面向特定主题需求”的爬虫程序。而我们主要学习的也是这样的爬虫程序。


爬虫程序的工作模式

说实话,写爬虫程序最难的不是码代码,最难的要熟悉被爬网站的业务逻辑,了解网络请求的链接,需要的参数,反爬的处理等等。

对被爬网站的抓包分析我们后面再说,这里主要讲一般的爬虫程序的工作逻辑。

基本流程

  • 发起请求:爬虫程序首先都会向目标链接发起请求,获取想要的数据。

比如抢购脚本,请求茅台链接的处理:

logger.info('访问商品的抢购连接...')   headers = {       'User-Agent': self.user_agent,       'Host': 'marathon.jd.com',       'Referer': 'https://item.jd.com/{}.html'.format(self.sku_id),   }   self.session.get(       url=self.seckill_url.get(           self.sku_id),       headers=headers,       allow_redirects=False)
复制代码

发起请求前,需要组装好访问的 headers,目的是模拟浏览器访问。访问目标链接,还要带上必须的参数,比如商品 ID。


常用的请求方法是 GET 和 POST

GET: 参数一般放在链接上,我们在浏览器上输入链接访问,就是 GET 方法。

POST: 参数一般放在请求方法上,不会暴露,而且 POST 方法能携带的数据量比较大,比 GET 方法安全。常用在登陆,下订单等敏感操作上。


  • 获取相应内容:发起请求后,服务器那边会根据请求的参数,返回对应商品的数据。

比如我们打开茅台商品的页面,会有一个状态码

我们可以根据这个状态码来判断,是成功的还是失败的。

常见的状态码有以下几种:

200 成功响应3xx:跳转使用404:找不到资源500以上:服务器错误
复制代码


  • 解析内容:我们拿到服务器返回的商品数据,可以提取响应的数据,但是需要怎么提取呢?

一般网站返回的数据有几种:

- json 格式的机构化数据

```

{"code":0,"whwswswws":"jM92rBfD0JFPpdmhM5FyRAw==","openall":1,"openalltouch":1,"processtype":1}

```

- HTML 数据

```

<a target="blank" class="catemenu_lk" href="//channel.jd.com&#47;home.html">家居</a>

<span class="catemenuline">/</span>

<a target="blank" class="catemenu_lk" href="//channel.jd.com&#47;furniture.html">家具</a>

<span class="catemenuline">/</span>

<a target="blank" class="catemenu_lk" href="//jzjc.jd.com&#47;">家装</a>

<span class="catemenuline">/</span>

<a target="blank" class="catemenu_lk" href="//channel.jd.com&#47;kitchenware.html">厨具</a>

</li>

<li class="catemenuitem" data-index="5" clstag="h|keycount|head|category_05a">

```

- 图片,视频等二进制数据

我们需要根据不同的数据,做不一样的解析,这里最方便的是 json 数据,它是结构化的,容易解析。

不过网站一般都是返回 HTML 数据,我们就需要通过一些 Python 库来解析了。

一般解析的方法有几种1.直接处理,保存文本2.json解析字符串,结构化处理3.正则表达式,解析规则字符串,使用re库4.beautifulsoup解析库,解析HTML数据的库5.pyquery6.xpath
复制代码

爬虫的应用和价值

爬虫程序的应用和价值显而易见,可以自动抢购茅台。当然,你也可以写抢购各种优惠券,秒杀,高铁抢票等,女同学可以爬取你喜欢的文章,微博保存下来,男同学可以爬取各种妹子图保存下来 yy。

有的人还会爬股票的数据,分析涨跌关系,制定模型,实现自动化炒股等。


对我们来说,能学会爬虫,相当于也熟悉了 python,可以自己写一写自动化的程序,减少很多重复的劳动,提高我们的工作效率,有更多时间做自己想做的事情。


最后

学习 Python,学习爬虫,可以帮助我们实现很多功能,大家有空可以一起学习,一起进步。


关注博主公众号 “phper 进阶笔记”,获取学习资料,一起学习。

希望大家点赞、评论、收藏



发布于: 2021 年 02 月 01 日阅读数: 76
用户头像

大佬sam

关注

服务器攻城狮。 2018.09.29 加入

日更

评论

发布
暂无评论
python爬虫入门-通过茅台脚本讲些爬虫知识,应用和价值