他说：“只是单纯的想用 Python 收集一些素颜照，做机器学习使用”，“我信你个鬼！”

梦想橡皮擦

关注

发布于: 1 小时前

今天，他爬取了 上千张 相亲素颜照。跟我说？刷相亲平台，收集素颜照，训练机器模型。这也能信？她们明明化妆了。

阅读本文你将收获

近万张素颜头像；
lxml 解析库初识；
XPath 语法初识；
Cooike 反爬；
女朋友（没准是意外收获）

Python 采集 19 楼相亲女生头像

从本篇博客开始，你将进入爬虫 120 例的第二个小阶段，requests + lxml 实现爬虫。

requests 相信通过前面 10 个案例，你已经比较熟悉了，接下来我们在其基础上，新增一款爬虫解析库 lxml。该库主要用于 XML，HTML 的解析，而且解析效率非常高，使用它之后，你就可以摆脱编写正则表达式的烦恼了。

目标数据源分析

爬取目标网站

本次抓取目标是 19 楼女生相亲频道，该分类频道截止 7 月 1 日还在持续更新中。

https://www.19lou.com/r/1/19lnsxq.html

以下图片来自网页截图，如有侵权，及时联系橡皮擦哦~

本次爬取的目标为上图头像图片，文件名保存为标题内容。

使用的 Python 模块

requests 模块
lxml 模块
fake_useragent 模块

重点学习内容

lxml 模块初识。

列表页分析

本次抓取围绕列表页即可完成任务，列表页排序规则如下：

https://www.19lou.com/r/1/19lnsxq.htmlhttps://www.19lou.com/r/1/19lnsxq_2.htmlhttps://www.19lou.com/r/1/19lnsxq-233.html

复制代码

图片所在标签如下所示，提取工作交给 lxml 模块完成，当然为了联系熟练程度，你依旧可以使用 re 模块完成一版。

lxml 基础知识

提前通过 pip install lxml 对该库完成安装。

导入该库与该库的基本使用。

from lxml import etreehtml = "一点HTML代码"#生成一个 XPath 对象html=etree.HTML(text)# 提取数据html.xpath('//li/a')

复制代码

上述代码注释中提及的 XPath 对象，关于 XPath，是一门在 XML/HTML 文档中查找信息的语言，大意为通过特定语法在 HTML 中提取数据的语言，基础知识的学习，可以参考 https://www.w3school.com.cn/xpath/xpath_intro.asp，最佳的学习技巧是边查边用。

整理需求如下

批量生成待抓取列表页；
requests 请求目标数据；
lxml 提取目标数据；
保存图片。

编码时间

在编码时，为了防止直接被反爬识别，所在爬取过程中，增加一个等待时间，限制爬取速度（当然在后续发现没有对 IP 的限制，直接移除即可）。

代码编写过程中，如果出现如下错误，更新 fake_useragent 即可。

raise FakeUserAgentError('Maximum amount of retries reached')

复制代码

更新脚本如下：

pip install -U fake-useragent

复制代码

如果依旧失败，建议自己写随机生成 UserAgent 的函数。

一点点反爬

爬取该目标数据时，直接通过 requests 请求目标地址，会返回如下代码，该代码不是目标数据所在页面，即网站存在反爬技术。

直接请求目标网址，得到的响应代码如下图所示，注意红框位置。

对 requests 请求到的数据进行分析，发现在返回的代码中设置了 Cookie，该值进行反复测试之后，发现为固定值，后续直接通过 requests 参数 headers 设置即可。

获取到目标页面源码之后，就可以通过 lxml 进行页面提取操作了，在前文已经进行了简单的描述。重点学习的分为两个部分内容：

首先通过 lxml 模块中的 etree 对象，将 HTML 源码进行序列化，即转化为 Element 对象；
然后对 Element 对象进行解析，这里用到的解析语法是 XPath，本文用到了路径解析，在完整代码部分有注释说明。

完整代码

import requestsfrom lxml import etreefrom fake_useragent import UserAgentimport time

def save(src, title):    try:        res = requests.get(src)        with open(f"imgs/{title}.jpg", "wb+") as f:            f.write(res.content)    except Exception as e:        print(e)

def run(url):    # ua = UserAgent(cache=False)    ua = "Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.85 Safari/537.36"    headers = {        "User-Agent": ua,        "Host": "www.19lou.com",        "Referer": "https://www.19lou.com/r/1/19lnsxq-233.html",        "Cookie": "_Z3nY0d4C_=37XgPK9h"  # 从反爬代码中获取到的值    }    try:        res = requests.get(url=url, headers=headers)        text = res.text        # 将 html 转换成 Element 对象        html = etree.HTML(text)        # xpath 路径提取 @class 为选取 class 属性        divs = html.xpath("//div[@class='pics']")        # print(len(divs))        # 遍历 Elements 节点        for div in divs:            # 提取地址，注意提取的属性为 data-src 而不是 src            src = div.xpath("./img/@data-src")[0]            # 提取标题            title = div.xpath("./img/@alt")[0]            save(src, title)    except Exception as e:        print(e)

if __name__ == '__main__':    urls = ["https://www.19lou.com/r/1/19lnsxq.html"]    for i in range(114, 243):        urls.append(f"https://www.19lou.com/r/1/19lnsxq-{i}.html")    for url in urls:        print(f"正在抓取{url}")        run(url)        # time.sleep(5)
    print("全部爬取完毕")