Python 爬取淘宝商品数据,价值千元的爬虫外包项目,最新美团点评 Python 团队面试题
配置浏览器驱动:
将下载好的浏览器驱动解压,将解压出的 exe
文件放到 Python 的安装目录下,也就是和python.exe
同目录即可。
或者
把驱动和代码放在同一个路径里面~
Selenium 就是模拟人的行为去操作~ 按照流程~
爬取内容:
商品价格
商品名字
销量
店铺名字
发货地
1、获取搜索框元素,输入想要搜索的内容 这里咱们呢搜索女士包包的关键词
driver.find_element_by_css_selector('#q').send_keys('女式包包')
2、获取搜索按钮元素,点击搜索
driver.find_element_by_css_selector('.search-button').click()
3、会弹出登陆页面
方案一:
- 获取账号和密码元素,用代码输入~ 合理设置好延时,并不会出现验证码~
方案二:
- 获取支付宝登陆元素,点击手动扫码登陆
![在这里插入图片描述](https://img-blog.csdnimg.cn/20201014161123846.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpd
Gk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2ZlaTM0Nzc5NTc5MA==,size_16,color_FFFFFF,t_70#pic_center)
这边选择方案二,方案一是可行的,但是会账号密码,所以这个你们可以自己去尝试
driver.find_element_by_css_selector('#login-form > div.login-blocks.sns-login-links > a.alipay-login').click()
4、获取商品列表页数据
和普通爬虫解析网站数据一样的~获取列表页标签,然后再二次提取。
这里创建一个字典,接收数据,方便等会保存到 csv 文件。
lis = driver.find_elements_by_css_selector('#mainsrp-itemlist .item')
dit = {}
for li in lis:
time.sleep(1)
price = li.find_element_by_css_selector('.ctx-box .price strong').text + '元' # 商品价格
dit['商品价格'] = price
deal = li.find_element_by_css_selector('.ctx-box .deal-cnt').text # 成交量
dit['成交量'] = deal
row = li.find_element_by_css_selector('.ctx-box .row-2 a').text # 商品名字
dit['商品名字'] = row
shop = li.find_element_by_css_selector('.shop > a > span:nth-child(2)').text # 店铺名字
dit['店铺名字'] = shop
city = li.find_element_by_css_selector('.row-3 > div.location').text # 发货地址
dit['发货地址'] = city
5、保存数据
感谢每一个认真阅读我文章的人,看着粉丝一路的上涨和关注,礼尚往来总是要有的:
① 2000 多本 Python 电子书(主流和经典的书籍应该都有了)
② Python 标准库资料(最全中文版)
③ 项目源码(四五十个有趣且经典的练手项目及源码)
④ Python 基础入门、爬虫、web 开发、大数据分析方面的视频(适合小白学习)
⑤ Python 学习路线图(告别不入流的学习)
评论