爬虫练习题(三)
题目:网页"https://www.6pian.cn/xq.html"
1.需求爬取前六页的页面源码
2.保存
复制代码
复制代码
首先,分析牛片网页链接,找到网页的规律,构建 URL
每一个页面的网页链接都不一样,一定要谨慎仔细的检查,找到规律,分别用 input 导入起始页和终止页,并用变量接收,用 headers 伪装,在页面中有几点开检查,找到整个网页的包,点开后找到 user agent,复制到 headers 里面,有的时候会需要复制 cookie,但在这题不需要用到
输入循环保证一面爬完后,紧接着爬下一页,这样你的公式必须要写对,逻辑清楚才能写出正确答案,答案不能死,搬硬套,后面就是构建 URL,把变量 n 传入,代替链接中的变量,使整个链接,满足所有页面链接,一旦爬取失败,你就要重新审视自己的构建,有没有出现问题?能不能满足其他页面的链接,后面最好是打印一下,你刚构建好的网址,确保无误后就可以实例化请对象,这里要看 Request 里面有哪几个变量并且传入用一个变量接收整个实例化过程
With open 用来保存数据第二个引号中,w 为写入如果不写默认为 r 为只读,转码时一定要注意看看他的编码类型输错了肯定会报错,这样你就可以在 pycharm 里得到六个页面的网页源码了。
User-Agent 在这里:
整个页面的数据包:
版权声明: 本文为 InfoQ 作者【张立梵】的原创文章。
原文链接:【http://xie.infoq.cn/article/17ed3a9e05f19ba109aab4a0c】。文章转载请联系作者。
评论