小白都能看懂的简单爬虫入门案例剖析(爬虫入门看它就够了!
对比一下,剔除多余部分,我们就可以得到百度图片关键词搜索的通用链接长这样:http://image.baidu.com/search/index?tn=baiduimage&word=关键字
现在我们的第一步获取百度图片中“皮卡丘图片”的网页链接已经完成了,接下来就是获取该网页的全部代码
2、获取该网页的全部代码
============
这个时候,我们可以先使用 requests 模块下的 get()函数打开该链接
然后通过模块中的 text 函数获取到网页的文本,也就是全部的代码。
url = "http://image.baidu.com/search/index?tn=baiduimage&word=皮卡丘"
urls = requests.get(url) #打开链接
urltext = urls.text #获取链接文本
3、查找代码中图片的链接
============
这一步我们可以先打开该网页链接,按照最开始大灰狼说的方法按下 F12 查看该网页的全部代码,然后如果说我们要爬取全部的 jpg 格式的图片,我们可以再按下 Ctrl+F 查找特定内容的代码,
如我们在该网页的代码中找到带有 jpg 的代码,然后找到类似于下图这样的代码,
其中的链接就是我们要获取到内容,我们仔细观察这几个链接就会发现它们的相同之处,也就是它们每一个链接前都会有”OpjURL”:进行提示,最后以”进行结尾,
并且我们拿出其中一个链接
http://dnptystore.qbox.me/p/chapter/attachment/EgfSetvEt-/Eg6s4gEwet2We_MVe_2SeTuDGN95Gb9ugvMq972t5c9heCmc9mH26_b.jpg
进行访问,发现也是可以打开该图片的。
所以我们就可以暂时的推断出百度图片中 jpg 图片的通用格式为“”OpjURL”:XXXX””,
4、根据图片链接写出通用的正则表达式
==================
现在我们已经知道了该类型图片的通用格式为“”OpjURL”:XXXX””,那么接下来就是根据该格式进行正则表达式的书写。
urlre = re.compile('"objURL":"(.*?)"', re.S)
其中 re.S 的作用是让正则表达式中的“.”可以匹配所有的“\n”换行符。
对正则表达式使用不了解的小伙伴也可以看我的这两篇文章“[Python 教程之正则表达式(基础篇)](
)”和“[Python 教程之正则表达式(提高篇)](
)”
5、通过设定的正则表达式匹配代码中所有符合要求的图片链接
============================
我们在上面已经写好了图片链接的正则表达式,接下来就是通过该正则表达式对全部代码进行匹配了,并且获取到所有链接的列表
urllist = re.findall(urltext)
#获取到图片链接的列表,其中的 urltext 为整个页面的全部代码,
接下来我们用几行代码对我们通过正在表达式匹配到的图片链接进行一下验证,将匹配到的所有链接写入 txt 文件:
with open("1.txt", "w") as txt:
for i in urllist:
txt.write(i + "\n")
之后我们在这个文件下就可以看到已经匹配到的图片链接,随便复制一个都是可以打开的。
6、逐个打开图片链接并将图片下载
================
现在我们已经将所有的图片的链接存放到了列表之中,接下来就是将图片下载即可。
基本思路是:通过 for 循环遍历列表中的所有链接,以二进制的方式打开该链接,新建一个.jpg 文件,将我们的图片以二进制的形式写入该文件。
在这里我们为了避免下载过快,在每次下载前休眠三秒钟,并且每个链接的访问时间最多为 5 秒,如果超过五秒的访问时间,我们就判定下载失败,继续下载下一章图片。
至于为什么以二进制的方式打开和写入图片,是因为我们的图片需要先用二进制的方式进行解析,然后才能被计算机写入。
下载图片的代码如下,下载张数设定为 3 张:
i = 0
for urlimg in urllist:
time.sleep(3) ??# 程序休眠三秒
img = requests.get(urlimg, timeout = 5).content ????# 以二进制形式打开图片链接
if img:
with open(str(i) + ".jpg", "wb") as imgs: ??# 新建一个 jpg 文件,以二进制写入
print("正在下载第 %s 张图片 %s" % (str(i+1), urlimg))
imgs.write(img) ????#将图片写入
i += 1
if i == 3: ?#为了避免无限下载,在这里设定下载图片为 3 张
break
else:
print("下载失败!")
现在,一个简单的爬取百度皮卡丘图片的爬虫就完成了,小伙伴也可以任意更改图片关键字和下载张数,培养一只属于自己的爬虫。
最后附上完整源码:
import requests
import re
import time
url = "http://image.baidu.com/search/index?tn=baiduimage&word=皮卡丘"
s = requests.session()
s.headers['User-Agent']='Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.
0.3626.119 Safari/537.36'
urls = s.get(url).content.decode('utf-8')
urls = requests.get(url) # 打开链接
requests.get(url="https://www.baidu.com/")
urltext = urls # 获取链接全部文本
urlre = re.compile('"objURL":"(.*?)"', re.S) # 书写正则表达式
urllist = urlre.findall(urltext) # 通过正则进行匹配
with open("1.txt", "w") as txt: # 将匹配到的链接写入文件
for i in urllist:
txt.write(i + "\n")
i = 0
循环遍历列表并下载图片
for urlimg in urllist:
time.sleep(3) # 程序休眠三秒
img = requests.get(urlimg, timeout=5).content # 以二进制形式打开图片链接
if img:
with open(str(i) + ".jpg", "wb") as imgs: # 新建一个 jpg 文件,以二进制写入
评论