我爬取了爬虫岗位薪资,分析后发现爬虫真香
闲着无事逛逛招聘网站,无意看到了爬虫岗位的薪资,发现真香,今天决定爬取下来并进行分析
目录
1.开始
2.分析目标网站的标签,发现想要的字段(岗位、公司名称、城市、薪资)都在 p 标签里面,如下图
3.开始编写代码
4.存储到 csv 文件
5.分析数据并进行可视化
5.1.可视化 1:爬虫岗位常用名称
5.2.可视化 2:爬虫岗位最多的城市
5.3.可视化 3:薪资分布情况
首先,确定目标网站:
1.开始
打开 pycharm,新建文件->导入必备的库->加入常用的请求头 header
2.分析目标网站的标签,发现想要的字段(岗位、公司名称、城市、薪资)都在 p 标签里面,如下图
3.开始编写代码
先通过 request 请求网页,防止中文乱码,进行 gbk 的编码(如果不设置则会出现乱码)
接着进行解析网页,获取想要的内容
最后出现运行后,结果如下:
4.存储到 csv 文件
为了方便下一步我们对数据进行分析,我将爬取下来的数据存储到 csv 文件
导入需要的库包
创建 csv 文件,并设置为追加写模式
在爬取文件的时候将爬取的内容循环写入 csv
保存好的 csv 数据如下:
5.分析数据并进行可视化
从 csv 中读取爬取好的数据
这里用了三个集合来存储系统分析的内容(岗位、城市、薪资分布)
由于薪资是 1 万/月、2 万/月,为了转为 10000、20000,则需要进行相应的处理。
开始分析了
5.1.可视化 1:爬虫岗位常用名称
从图中可以看出,大多数公司都需要用"爬虫开发工程师"这个词
5.2.可视化 2:爬虫岗位最多的城市
从图中来看,大城市(北上广深)的爬虫工程师岗位居多
5.3.可视化 3:薪资分布情况
我们可以发现,爬虫工程师的薪资在 20000+以上的占大半数,尤其是 20000 左右的居多,看来爬虫岗位真是太香,你酸了吗,哈哈哈哈
从薪资范围来看,在 10000-20000 之间站大多数,基本很不错的薪资,大于 20000+的很有一些,真是诱惑太大了
ok,今天的分享就到此结束了,我们下次再见
版权声明: 本文为 InfoQ 作者【Python研究者】的原创文章。
原文链接:【http://xie.infoq.cn/article/de4aa079d8e90775adf071cca】。文章转载请联系作者。
评论