用 Python 保住“设计大哥“的头发,直接甩给他 10000 张参考图,爬虫采集【稿定设计】平面模板素材
最近【稿定设计】这个站点挺火,设计组的大哥一直在提,啊,这个好,这个好。
机智的我,思考了一下,决定给他采集一些公开素材,以后跟设计对线的时候,肯定要卖个人情。
目标站点分析
本次要采集的站点是:https://sucai.gaoding.com/plane/materials,高清图肯定不能采集啦,仅采集 1080 P 的缩略图。
目的是给设计组大哥提供素材参考,毕竟做设计的可不能抄袭哦(思路枯竭的时候,借鉴一下还凑合)。
目标站点的筛选项非常“贴心”的提供“全部”这一选项,省的我们拼凑分类了。
在查阅分页的时候,发现稿定设计网站仅开放了 100 页数据,每页 100 条,也就是咱只能获取到 10000 张图片。
看了一眼设计大哥的头发,我觉得够他用一年了。
页面 URL 跳转链接规则如下:
但是数据的请求链接为下述规则:
参数说明
q
:搜索的关键字,为空即可;sort
:排序规则,可空;colors
和styles
:颜色和风格, 保持空;filter_id
:过滤 ID,保持全部应该是1617130
;page_size
:获取的每页数据量;page_num
:页码,该值最大为 100。
有了上述分析之后,就可以进行编码工作了。
编码时间
在正式编码前,先通过一张图整理逻辑,该案例依旧为生产者与消费者模式爬虫,采用 threading 模块
与 queue
队列模块实现。
理解上图之后,就可以编写下述代码了,重点部分在注释中体现,本次采用类写法,学习的时候需要特别注意一下。
生产者线程用于产生图片地址,存放到队列 queue
中,消费者线程通过一个“死循环”不断从队列中,获取图片地址,然后进行下载。
代码运行效果如下图所示:
收藏时间
代码仓库地址:https://codechina.csdn.net/hihell/python120,去给个关注或者 Star 吧。
数据没有采集完毕,想要的可以在评论区留言交流
今天是持续写作的第 <211 / 365 天。可以关注我,点赞我、评论我、收藏我啦。
版权声明: 本文为 InfoQ 作者【梦想橡皮擦】的原创文章。
原文链接:【http://xie.infoq.cn/article/f7bb5600a445c6923868454bc】。文章转载请联系作者。
评论