写点什么

不写代码可以写爬虫程序吗?老师说可以,无编码学爬虫之一。

发布于: 2021 年 02 月 28 日
不写代码可以写爬虫程序吗?老师说可以,无编码学爬虫之一。

今天是持续写作的第 <font color="red">16</font> / 100 天。

如果你有想要交流的想法、技术,欢迎在评论区留言。


很多人把技术都放在了一个比较高的位置,但是技术真的只是达成目标的一种手段,完全不懂编程,不想写代码,能不能实现爬虫程序呢?答案当然是可以。


本系列文章将带你进入无编码写爬虫的大门,人人都可完成爬虫程序,人人都能采集到自己需要的数据。


<center><font color=red>缓解一下视疲劳</font></center>



Web Scraper 简介与安装


官方网址给出的定义: Making web data extraction easy and accessible for everyone


该插件属于浏览器插件,官方网址为 : https://www.webscraper.io/,官网中的下载地址如图所示。



该插件基于谷歌浏览器与火狐浏览器,但是访问谷歌插件商店需要科学上网,不好弄,建议在搜索引擎直接检索下载,如果检索不到,可以使用我帮你找的下面这个地址。


# 数据来源网络,你可以自行查找,资源非常多。https://pan.baidu.com/s/1CfAWf0wMO6WqicoUgdYgkg 提取码: nn2e
复制代码


在打开的页面中,下载文件夹和 crx 文件都可以,安装不存在差异。


浏览器插件安装


谷歌浏览器插件安装直接在浏览器地址栏输入 chrome://extensions/,打开的页面中开启开发者模式。拖拽 crx 文件到浏览器插件页面即可。


拖拽的方式很容易出现的错误就是 程序包无效,下图所示错误。

解决办法非常简单,修改 crx 文件后缀名为 zip,解压之后,通过文件夹进行安装。注意点击 加载已解压的扩展程序,选择解压之后的文件夹即可。


安装完毕,将插件展示到浏览器扩展位置。按照以下两个步骤操作即可,最终在浏览器出现一个蜘蛛网图标表示成功。

如果还不是很清楚安装的过程,可以参照 CSDN 开发助手首页,Web Scraper 的安装过程与开发者助手是一致的。

插件官网:https://plugin.csdn.net/


除了检测插件图标以外,还需要在开发者工具中检查一下功能是否存在。开发者工具在最后增加了一项 Web Scraper,出现该项就可以啦。



找个网站练练手


Web Scraper 特别像是一款软件,刚接触发现哪个按钮都不会点,使用一下发现,功能非常简单,只需要用鼠标就可以完成所有的操作了,基本上不用写代码(偶尔还是要敲几下键盘的)。


学习软件操作类的技能,最好的办法就是用中学,用着用着就会了,千万不要扣里面的细节知识点。


第一个要爬取的,暂定为 【人人都是产品经理】 这个网站。

打开 Web Scraper 之后,其实很容易就知道下一步该如何操作了,因为这三个按钮中只有第三个可以点击。


点击 Create new sitemap 表示创建一个网站导览,Sitemap name 理解成爬虫的名称就行,下面的 Start URL 起始页面地址,可以为多个 URL,本文案例不涉及,后面文章包含该内容。后面我们可以将 sitemap 就当成一个爬虫程序,这样就比较容易理解了。


输入 sitemap namestart url 之后,就可以创建一个待爬取的网站了。输入的内容如下:


  • sitemap name : woshipm

  • start url : http://www.woshipm.com/


创建完毕之后默认进入如下界面,注意两个位置,第一个红色框选区域,_root 表示根节点,记住是名词就行了,表示你刚才设置页面的网页结构。下面的按钮是一个选择器,稍后讲解。


此时注意到 sitemaps 已经可以点击,点击之后会罗列出所有的 sitemap,其实就是你可以写多个爬虫程序,这个地方是个清单。



当点击某个爬虫程序进入内部之后,会发现菜单中还有一个细节变化。


进入到某个具体的爬虫程序之后,上面的下拉列表可以进行操作了,不过暂时忽略。


点击 add new selector 之后,跳转的页面为下图所示,重要的地方有两个,第一个是 Type,该值的选择影响界面输入内容,还有一个需要注意,parent selectors 父选择器,注意里面的值现在是 _root

接下来的操作就非常有意思了,我们点选 Select 按钮。

静态图不是很少查看,使用动态图进行展示,点击该按钮之后,可以进入打开的网页进行选择,例如我点击的位置是文件的标题,点击一个之后,底色变红,在点击第二个,这样之后,Web Scraper 会自动将符合你点选规律的所有内容都选中,也就是下图展示的都为红色。你可以核对一下是否有问题,如无问题,点击窗口中间位置的 Done selecting 即可结束选择。

结束选择之后点击的按钮和最终的效果如图。

在 id 中书写一个名称之后,保存该选择器即可。

此时跳转的页面如下图所示:

点击右侧的 Data preview 之后,出现的界面发现只有一条数据,和我们预期希望获得的多条数据不一致,点击 Edit 进入 selector 继续修改。

勾选下图所示按钮之后,继续操作。

保存选择器,返回上一界面,在点击 Data preview 出现多条数据表示本次操作完成。

下面就要启动爬虫了,按照下图所示进行操作。

点击 Scrape 进入界面需要设置一下请求数量与每个页面的请求延迟,一般保持默认即可。

弹出一个小型浏览器界面,之后会跳转到如下界面。

点击页面中的刷新按钮,数据拿到完成任务。

最后一步选择导出数据到本地。

注意最终的本地文件中的列名称如下,前面两个是系统自动生成的忽略即可,最后的一列是我们希望的数据,并且列名为刚才定义的 id 值。

到此,第一个案例已经完成。一行代码没有写就完成了一个爬虫程序。


写在后面

肯定第一次学习的时候有朋友会说,好麻烦啊,还不如简单写程序,用 requests 爬取简单呢。其实不然,随着后续课程的展开,你会发现这玩意很好使,在某些网站,尤其是有反爬手段的网站,这个使用起来简单、粗暴、有效。


**想学 Python 爬虫,可以订阅橡皮擦专栏哦~** 《爬虫百例教程》点击发现惊喜




博主 ID:梦想橡皮擦,希望大家<font color="red">点赞</font>、<font color="red">评论</font>、<font color="red">收藏</font>。


发布于: 2021 年 02 月 28 日阅读数: 36
用户头像

爬虫 100 例作者,蓝桥签约作者,博客专家 2021.02.06 加入

6 年产品经理+教学经验,3 年互联网项目管理经验; 互联网资深爱好者; 沉迷各种技术无法自拔,导致年龄被困在 25 岁; CSDN 爬虫 100 例作者。 个人公众号“梦想橡皮擦”。

评论

发布
暂无评论
不写代码可以写爬虫程序吗?老师说可以,无编码学爬虫之一。