【Python 实战】Python 中 parsel 两种获取数据方式
⭐️网页解析利器 parsel 实战
我们以实际的案例,来具体了解学习其功能。我们在这里重点讲解其两种方式。一个是 XPATH,一个是 CSS。我们以某网为例,获取其新闻标题。
🌟 parsel 简介
Parsel 是一个用于解析 JSON 数据的 Python 库。它提供了一个简单易用的 API,可以轻松地从 JSON 文件或字符串中解析数据。可以对 HTML 和 XML 进行解析,并支持使用 XPath 和 CSS Selector 对内容进行提取和修改,同时它还融合了正则表达式提取的功能。功能灵活而又强大。
🌟发送请求
我们先确定目标网址,我们为了让新手更好的学习,我们这里以中国新闻网为例,不讲太复杂的案例。如果,想更好的提升自己,可以尝试学习我之前发的文章。这篇文章使用的方法也是 parsel。
我们发送请求,获取数据。我们相信大家这里的代码都会写了。
我们使用requests.get()
函数来发送 HTTP 请求,并将响应存储在responses
变量中。在这个例子中,我们将响应的文本内容存储在responses.text
变量中。
🌟解析数据
我们获取到了网页源代码之后,我们使用 parsel 方法对其解析,处理网页源代码。
我们使用 parsel
库的 Selector
对象来选择 responses.text
中的特定元素。
我们使用开发者工具,观察标题在哪个标签位置里面。
由上图,我们可以看到,我们标题信息就在<li>标签里面。我们可以提取<li>标签里面所有的内容。在这里,我们只获取新闻的标题内容。下面我们将用两种方式获取。
✨XPATH 方式
我们很容易获取到了标签所在的位置,大家不会写的话,可以右击 copy—xpath。我们来写代码。
xpath
方法是 Selector
对象中的一个方法,用于指定 XPath 表达式,它可以用于选择 HTML 元素。在这个例子中,我们使用 xpath
方法来选择 /html/body/div[4]/div[1]/div[2]/ul/li/div[2]/a/text()
表达式指定的所有 <a>
元素,并将它们的文本内容作为列表返回。
我们这里会得到一个所有新闻的标题列表,我们 for 遍历一下。我们看看效果。
✨CSS 方法
我们刚刚用了 XPATH 的方法获取新闻的标题,我们接下来,我们使用 CSS 的方法来获取标题。
我们这里,直接写代码了。
css
方法是 Selector
对象中的一个方法,用于指定 CSS 属性,它可以用于选择 HTML 元素。在这个例子中,我们使用 css
方法来选择 ul > li > div.dd_bt a
表达式指定的所有 <a>
元素的文本,并将它们的样式作为列表返回。
我们 CSS 语法还可以这样写。
css
方法是 Selector
对象中的一个方法,用于指定 CSS 属性,它可以用于选择 HTML 元素。在这个例子中,我们使用 css
方法来选择 .dd_bt a::text
表达式指定的所有 <a>
元素,并将它们的文本内容作为列表返回。
我们会发现是一样的效果,不管怎么样,大家都要会一种方法。
🌟总结
在 parsel 实战中,我完成了一个使用 parsel
库的选择器来选择 特定元素的内容。在这个实战中,我使用了 xpath
和 css
方法来指定选择的元素的位置和样式,使用 Selector
对象来指定选择的元素,并使用 getall
方法来获取选择的所有元素。
首先,我们需要更好地理解 xpath
和 css
方法的使用,以便更准确地选择元素。其次,我们需要更好地理解 Selector
对象的使用,以便更准确地指定选择的元素。
版权声明: 本文为 InfoQ 作者【BROKEN】的原创文章。
原文链接:【http://xie.infoq.cn/article/5c5394644aa75824c1e1e0042】。文章转载请联系作者。
评论