写点什么

凭借这 5 步,我 30 分钟学会了 Python 爬虫!

用户头像
Jackpop
关注
发布于: 3 小时前

在不同公司的许多人可能出于各种原因需要从 Internet 收集外部数据:分析竞争,汇总新闻摘要、跟踪特定市场的趋势,或者收集每日股票价格以建立预测模型……


无论你是数据科学家还是业务分析师,都可能时不时遇到这种情况,并问自己一个永恒的问题:我如何才能提取该网站的数据以进行市场分析?


提取网站数据及其结构的一种可能的免费方法是爬虫


在本文中,你将了解如何通过 Python 轻松的完成数据爬虫任务。



什么是爬虫?

广义上讲,数据爬虫是指以编程方式提取网站数据并根据其需求进行结构化的过程。


许多公司正在使用数据爬虫来收集外部数据并支持其业务运营:这是当前在多个领域中普遍的做法。


我需要了解什么才能学习 python 中的数据抓取?


很简单,但是需要首先具备一些 Python HTML 知识。


另外,需要了解两个非常有效的框架,例如,Scrapy 或 Selenium。

详细介绍

接下来,让我们学习如何将网站变成结构化数据!


为此,首先需要安装以下库:


  • requests:模拟 HTTP 请求(例如 GET 和 POST), 我们将主要使用它来访问任何给定网站的源代码

  • BeautifulSoup:轻松解析 HTML 和 XML 数据

  • lxml:提高 XML 文件的解析速度

  • pandas:将数据构造为 Dataframes 并以您选择的格式(JSON,Excel,CSV 等)导出


如果你使用的是 Anaconda,配置起来会非常简单,这些软件包都已预先安装。


如果不是使用 Anaconda,需要通过如下命令安装工具包:


pip install requestspip install beautifulsoup4pip install lxmlpip install pandas
复制代码


我们要抓取哪些网站和数据?


这是爬虫过程中首先需要回答的问题。


本文就以爬取 Premium Beauty News 为例进行演示。


该以优质美容新闻为主,它发布了美容市场的最新趋势。


查看首页,你会看到我们要抓取的文章以网格形式组织。




多页面的组织如下:




当然,我们仅要提取出现在这些页面上的每篇文章的标题,我们将深入每个帖子并获取我们需要的详细内容,例如:


  • 标题

  • 日期

  • 摘要

  • 全文



编码实践

前面,已经介绍了基本的内容以及需要用到的工具包。


接下来,就是正式编码实践的步骤。


首先,需要导入基础工具包:


import requests from bs4 import BeautifulSoup import pandas as pd from tqdm import tqdm_notebook
复制代码


我通常定义一个函数来解析给定 URL 的每个页面的内容。


该函数将被多次调用,这里将他命名为parse_url


def parse_url(url):    response = requests.get(url)    content = response.content         parsed_response = BeautifulSoup(content, "lxml")         return parsed_response
复制代码


提取每个帖子数据和元数据


首先,我将定义一个函数,该函数提取给定 URL 的每个帖子的数据(标题,日期,摘要等)。


然后,我们将遍历所有页面的for循环内调用此函数。


要构建我们的爬虫工具,我们首先必须了解页面的基本 HTML 逻辑和结构。以提取帖子的标题为例,讲解一下。


通过在 Chrome 检查器中检查此元素:




我们注意到标题出现在article-title类的h1内。


使用 BeautifulSoup 提取页面内容后,可以使用 find 方法提取标题。


title = soup_post.find("h1", {"class": "article-title"}).text
复制代码


接下来,看一下日期




该日期显示在一个span内,该范围本身显示在row sub-header类的标题内。


使用 BeautifulSoup 将其转换为代码非常容易:


datetime = soup_post.find("header", {"class": "row sub-  header"}).find("span")["datetime"]
复制代码


下一步就是摘要




它在article-introh2标签下:


abstract = soup_post.find("h2", {"class": "article-intro"}).text
复制代码


现在,需要爬取帖子的全文内容。如果已经理解了前面的内容,那么这部分会非常容易。


该内容在article-text类的div内的多个段落(p标签)中。




BeautifulSoup 可以通过以下一种方式提取完整的文本。而不是遍历每个每个p标签、提取文本、然后将所有文本连接在一起。


content = soup_post.find("div", {"class": "article-text"}).text
复制代码


下面,让我们把它们放在同一个函数内看一下:


def extract_post_data(post_url):    soup_post = parse_url(post_url)        title = soup_post.find("h1", {"class": "article-title"}).text    datetime = soup_post.find("header", {"class": "row sub-header"}).find("span")["datetime"]    abstract = soup_post.find("h2", {"class": "article-intro"}).text    content = soup_post.find("div", {"class": "article-text"}).text        data = {        "title": title,        "datetime": datetime,        "abstract": abstract,        "content": content,        "url": post_url    }        return data
复制代码

提取多个页面上的帖子 URL

如果我们检查主页的源代码,会看到每个页面文章的标题:




可以看到,每 10 篇文章出现在 1 个post-style1 col-md-6标签下:


下面,提取每个页面的文章就很容易了:


url = "https://www.premiumbeautynews.com/fr/marches-tendances/"soup = parse_url(url)section = soup.find("section", {"class": "content"})posts = section.findAll("div", {"class": "post-style1 col-md-6"})
复制代码


然后,对于每个单独的帖子,我们可以提取 URL,该 URL 出现在h4标签内部。


我们将使用此 URL 调用我们先前定义的函数extract_post_data


uri = post.find("h4").find("a")["href"]
复制代码

分页

在给定页面上提取帖子后,需要转到下一页并重复相同的操作。


如果查看分页,需要点击“下一个”按钮:




到达最后一页后,此按钮变为无效。


换句话说,当下一个按钮处于有效状态时,就需要执行爬虫操作,移至下一页并重复该操作。当按钮变为无效状态时,该过程应停止。


总结此逻辑,这将转换为以下代码:


next_button = ""posts_data = []count = 1base_url = 'https://www.premiumbeautynews.com/'
while next_button isnotNone: print(f"page number : {count}")
soup = parse_url(url) section = soup.find("section", {"class": "content"}) posts = section.findAll("div", {"class": "post-style1 col-md-6"})
for post in tqdm_notebook(posts, leave=False): uri = post.find("h4").find("a")["href"] post_url = base_url + uri data = extract_post_data(post_url) posts_data.append(data) next_button = soup.find("p", {"class": "pagination"}).find("span", {"class": "next"}) if next_button isnotNone: url = base_url + next_button.find("a")["href"] count += 1
复制代码


此循环完成后,将所有数据保存在posts_data中,可以将其转换为漂亮的 DataFrames 并导出为 CSV 或 Excel 文件。


df = pd.DataFrame(posts_data)df.head()
复制代码




到这里,就把一个非结构化的网页转化成结构化的数据了!



干货推荐

为了方便大家,我花费了半个月的时间把这几年来收集的各种技术干货整理到一起,其中内容包括但不限于 Python、机器学习、深度学习、计算机视觉、推荐系统、Linux、工程化、Java,内容多达 5T+,我把各个资源下载链接整理到一个文档内,目录如下:


















所有干货送给大家,希望能够点赞支持一下!


https://http://pan.baidu.com/s/1eks7CUyjbWQ3A7O9cmYljA (提取码:0000)

发布于: 3 小时前阅读数: 5
用户头像

Jackpop

关注

还未添加个人签名 2020.09.16 加入

公众号:平凡而诗意,微信:code_7steps,全网粉丝超20万,技术进阶、优质资源、实用工具,欢迎关注!

评论

发布
暂无评论
凭借这5步,我30分钟学会了Python爬虫!