Python 爬虫网页元素定位术,就在这篇博客中
最近更新:2022 年 4 月 3 日,橡皮擦的第 <font color=red>607</font> 篇原创博客 @[toc]
⛳️ 实战场景
初学 Python 爬虫,十之八九你采集的目标是网页,因此快速定位到网页内容,就成为你面临的第一道障碍,本篇博客就为你详细说明最易上手的网页元素定位术,学完就会系列。
最近补充了一系列 Python 爬虫基础内容,希望大家跟上节奏,奏乐,舞起来。
本文核心使用到的是 Beautiful Soup 模块,因此我们用来做测试采集的站点,也是其官网(现阶段爬虫采集越来越严格,很多站点不能在采集了,很容易被封杀,只能学谁就采集谁了)
官方站点
Beautiful Soup 在 Python 爬虫圈知名度极高,而且非常好用,它是一款 Python 解析库,主要用于将 HTML 标签转换为 Python 对象树,然后让我们从对象树中提取数据。
模块的安装及其简单:
未来安装任何模块,都尽量使用国内源,速度快稳定。
该模块包名称为 bs4,安装的时候需要特别注意下。
🥇 基础用法如下所示
其中需要注意的就是模块导入代码,以及实例化 soup
对象时,在 BeautifulSoup
类的构造函数中传递的两个参数,一个是待解析的字符串,另一个是解析器,官方建议的是 lxml
,因其解析速度快。
上述代码输出的内容如下所示,看上去就是普通的 HTML 代码文件。
而且我们可以调用 soup
对象的 soup.prettify()
方法,可以将 HTML 标签进行格式化操作,这样你就可以在存储到外部文件的时候,让其 HTML 代码进行美观。
⛳️ BeautifulSoup 模块的对象说明
BeautifulSoup 类可以将 HTML 文本解析成 Python 对象树,而这里面又包括最重要的四种对象,分别是 Tag
,NavigableString
,BeautifulSoup
,Comment
对象,接下来我们一一介绍。
🥇BeautifulSoup 对象
该对象本身就代表整个 HTML 页面,而且实例化该对象的时候,还会自动补齐 HTML 代码。
🥇Tag 对象
Tag 是标签的意思,Tag 对象就是网页标签,或者叫做网页元素对象,例如获取 bs4 官网的 h1 标签对象,代码如下所示:
得到的也是网页中的 h1 标签:
用 Python 中的 type 函数,可以查看其类型,代码如下:
此时得到的可不是一个字符串,而是一个 Tag 对象。
既然是 Tag 对象,那就会具备一些特定的属性值
获取标签名称
通过 Tag 对象获取标签的属性值
通过 attrs 属性获取标签的所有属性
以上代码的所有输出如下所示,可以任意选择标签进行练习。
🥇NavigableString 对象
NavigableString 对象获取的是标签内部的文字内容,例如 p
标签,在下述代码中提取的是 我是橡皮擦
获取该对象也非常容易,使用 Tag 对象的 string 属性即可。
输出结果如下所示
如果目标标签是一个单标签,会获取到 None 数据
除了使用对象的 string
方法外,还可以使用 text
属性和 get_text()
方法来获取标签内容
其中 text
是获取所有子标签内容的合并字符串,而 get_text()
也是相同的效果,不过使用 get_text()
可以增加一个分隔符,例如上述代码的 &
符号,还可以使用,strip=True 参数去除空格。
🥇Comment 对象
获取网页注释内容,用处不大,忽略即可。
BeautifulSoup 对象和 Tag 对象支持标签查找方法,具体内容如下所示。
⛳️ find() 方法和 find_all() 方法
调用 BeautifulSoup 对象和 Tag 对象的 find()
方法,可以在网页中找到指定对象,该方法的语法格式如下:
方法的返回结果是查找到的第一个元素,如果没查询到,返回 None。参数说明如下:
name
:标签名称;attrs
:标签属性;recursive
:默认搜索所有后代元素;text
:标签内容。
例如我们继续在上文请求的网页中,查找 a
标签,代码如下:
也可以使用 attrs
参数进行查找,代码如下:
find()
方法还提供了一些特殊的参数,便于直接查找,例如可以使用 id=xxx
,查找属性中包含 id
的标签,可以使用 class_=xxx
,查找属性中包含 class
的标签。
与 find()
方法成对出现的是 find_all()
方法,看名称就能知道其返回结果收是全部匹配标签,语法格式如下:
其中重点说明一下 limit
参数,它表示最多返回的匹配数量,find()
方法可以看作 limit=1
,这样就变得容易理解了。
📣📣📣📣📣📣🌻 本文如果发现错误,欢迎在评论区中指正哦 💗
版权声明: 本文为 InfoQ 作者【梦想橡皮擦】的原创文章。
原文链接:【http://xie.infoq.cn/article/658655a437e3d4314cf83b009】。文章转载请联系作者。
评论