Python 爬虫基础 -requests 模块 -1
requests 请求模块
写在前面
一个学生,请多多关照,希望能在 InfoQ 记录自己的学习历程!❤️
请求方式
由于 requests 为第三方模块,使用 requests 时需要通过执行指令pip install requests
来安装该模块,requests 功能特性如下:
Keep-Alive&连接池
国际化域名和 URL
带持久 Cookie 的会话
浏览器式的 SSL 认证
自动内容解码
Unicode 响应体
HTTP(S)代理支持
文件分块上传
流下载
连接超时
自动解压
支持 .netrc
分块请求
优雅的 key/value Cookie
基本/摘要式的身份验证
GET 请求
最常用的 HTTP 请求方式为 GET 和 POST,GET 请求时有两种方法,一种带参数,一种不带参数,这里以百度为例
复制代码
程序运行结果如下图所示:
获取请求地址所对应的源码
当响应状态码为 200 时,说明本次网络请求已成功,此时可以获取请求地址所对应的网页源码示例代码如下:
复制代码
运行结果如下:
说明
在没有进行 utf-8 编码时,可能会出现乱码:
爬取二进制数据
实例下载 baidu 首页的 logo 图片
使用 requests 模块中的 get()函数不仅可以获取网页中的源码信息,还可以获取二进制文件,但是在获取二进制文件时,需要使用 Response.content 属性获取 bytes 类型的数据,例如爬取 baidu 首页的 logo,实例代码如下:
复制代码
运行结果如下:
版权声明: 本文为 InfoQ 作者【zyf】的原创文章。
原文链接:【http://xie.infoq.cn/article/bbd449cb412270f15c5905f2e】。文章转载请联系作者。
评论