写点什么

使用机器学习笔记三:网页数据抓取

作者:打工人!
  • 2021 年 12 月 04 日
  • 本文字数:727 字

    阅读完需:约 2 分钟

使用机器学习笔记三:网页数据抓取

前言:

本文是个人在 B 站自学李沐老师的实用机器学习课程【斯坦福 2021 秋季中文同步】的学习笔记,感觉沐神讲解的非常棒 yyds。为什么叫做实用机器学习呢?老师在课程中说到,他的这个机器学习课程和以往学校开设的或者网课开设的不同,这个课程更加接地气,更加贴和工业界的落地实现以及会遇到的一些问题和解决方案。个人认为,对于已经工作,或者即将工作的来说,这门课程绝对是你所需要的。

网页数据爬取:

网上公开的数据集通常也都是在网页上爬取下来的,爬取下来的数据往往有很多噪声,需要对数据进行清洗。爬数据和爬网页还是有些不同:爬网页往往是把整个网页保存下来,爬数据通常是把网页上我们比较感兴趣的数据爬取并保存下来。

从网页上爬数据基本上都是使用 python 和一些爬虫库来进行。我们知道网站上的数据很多都是独有的,网站往往不想让别人拿走他们的数据,就会有一些反爬措施来阻止你爬取数据,比如 ip 检测,访问异常检测,如果你一直不同的访问他的网站,可能就会把你的 ip 地址给封杀掉。在爬虫时需要借助爬虫库来进行,实际上就是添加一个浏览器,伪装成正常人在访问网页,并且禁用他的图像界面。代码如下:

from selenium import webdriver
chrome_options = webdriver.ChromeOptions()chrome_options.headless = Truechrome = webdriver.Chrome(chrome_options = chrome_options)
page = chrome.get(url)
复制代码

为了可以进行顺利爬虫,防止网站判断出同一个 iP 地址在恶意访问,需要使用不同的 ip 地址来交替访问网站,这方面的知识可以自行搜索来寻找解决方案。另外,在进行爬虫的时候,我们需要一点点的前端知识,会解析前端的 html 代码。只需要一点点哦!

法律问题:

另外爬虫,保存,使用数据会牵涉到法律问题,爬虫需谨慎。

发布于: 3 小时前阅读数: 7
用户头像

打工人!

关注

打工人! 2019.11.10 加入

InfoQ年度最佳内容获得者。 InfoQ签约作者 本人打工人一枚,自动化和控制专业入坑人一枚。目前在研究深度强化学习(DRL)技术。准备入坑互联网小白一枚。喜欢了解科技前沿技术,喜欢拍照。

评论

发布
暂无评论
使用机器学习笔记三:网页数据抓取