写点什么

Python 爬取淘宝商品数据,价值千元的爬虫外包项目,最新美团点评 Python 团队面试题

作者:程序媛可鸥
  • 2022 年 3 月 18 日
  • 本文字数:1061 字

    阅读完需:约 3 分钟

配置浏览器驱动:


将下载好的浏览器驱动解压,将解压出的 exe 文件放到 Python 的安装目录下,也就是和python.exe同目录即可。


或者


把驱动和代码放在同一个路径里面~


确定目标网页





Selenium 就是模拟人的行为去操作~ 按照流程~


爬取内容:


  • 商品价格

  • 商品名字

  • 销量

  • 店铺名字

  • 发货地


1、获取搜索框元素,输入想要搜索的内容 这里咱们呢搜索女士包包的关键词


driver.find_element_by_css_selector('#q').send_keys('女式包包')


2、获取搜索按钮元素,点击搜索


driver.find_element_by_css_selector('.search-button').click()


3、会弹出登陆页面


  • 方案一


- 获取账号和密码元素,用代码输入~ 合理设置好延时,并不会出现验证码~


  • 方案二


- 获取支付宝登陆元素,点击手动扫码登陆


![在这里插入图片描述](https://img-blog.csdnimg.cn/20201014161123846.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpd



Gk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2ZlaTM0Nzc5NTc5MA==,size_16,color_FFFFFF,t_70#pic_center)


这边选择方案二,方案一是可行的,但是会账号密码,所以这个你们可以自己去尝试


driver.find_element_by_css_selector('#login-form > div.login-blocks.sns-login-links > a.alipay-login').click()


4、获取商品列表页数据



和普通爬虫解析网站数据一样的~获取列表页标签,然后再二次提取。


这里创建一个字典,接收数据,方便等会保存到 csv 文件。


lis = driver.find_elements_by_css_selector('#mainsrp-itemlist .item')


dit = {}


for li in lis:


time.sleep(1)


price = li.find_element_by_css_selector('.ctx-box .price strong').text + '元' # 商品价格


dit['商品价格'] = price


deal = li.find_element_by_css_selector('.ctx-box .deal-cnt').text # 成交量


dit['成交量'] = deal


row = li.find_element_by_css_selector('.ctx-box .row-2 a').text # 商品名字


dit['商品名字'] = row


shop = li.find_element_by_css_selector('.shop > a > span:nth-child(2)').text # 店铺名字


dit['店铺名字'] = shop


city = li.find_element_by_css_selector('.row-3 > div.location').text # 发货地址


dit['发货地址'] = city


5、保存数据



感谢每一个认真阅读我文章的人,看着粉丝一路的上涨和关注,礼尚往来总是要有的:


① 2000 多本 Python 电子书(主流和经典的书籍应该都有了)


② Python 标准库资料(最全中文版)


③ 项目源码(四五十个有趣且经典的练手项目及源码)


④ Python 基础入门、爬虫、web 开发、大数据分析方面的视频(适合小白学习)


⑤ Python 学习路线图(告别不入流的学习)

用户头像

Python编程资料加Q群免费领取:419829237 2022.03.14 加入

还未添加个人简介

评论

发布
暂无评论
Python爬取淘宝商品数据,价值千元的爬虫外包项目,最新美团点评Python团队面试题_Python_程序媛可鸥_InfoQ写作平台