使用机器学习笔记三:网页数据抓取
前言:
本文是个人在 B 站自学李沐老师的实用机器学习课程【斯坦福 2021 秋季中文同步】的学习笔记,感觉沐神讲解的非常棒 yyds。为什么叫做实用机器学习呢?老师在课程中说到,他的这个机器学习课程和以往学校开设的或者网课开设的不同,这个课程更加接地气,更加贴和工业界的落地实现以及会遇到的一些问题和解决方案。个人认为,对于已经工作,或者即将工作的来说,这门课程绝对是你所需要的。
网页数据爬取:
网上公开的数据集通常也都是在网页上爬取下来的,爬取下来的数据往往有很多噪声,需要对数据进行清洗。爬数据和爬网页还是有些不同:爬网页往往是把整个网页保存下来,爬数据通常是把网页上我们比较感兴趣的数据爬取并保存下来。
从网页上爬数据基本上都是使用 python 和一些爬虫库来进行。我们知道网站上的数据很多都是独有的,网站往往不想让别人拿走他们的数据,就会有一些反爬措施来阻止你爬取数据,比如 ip 检测,访问异常检测,如果你一直不同的访问他的网站,可能就会把你的 ip 地址给封杀掉。在爬虫时需要借助爬虫库来进行,实际上就是添加一个浏览器,伪装成正常人在访问网页,并且禁用他的图像界面。代码如下:
为了可以进行顺利爬虫,防止网站判断出同一个 iP 地址在恶意访问,需要使用不同的 ip 地址来交替访问网站,这方面的知识可以自行搜索来寻找解决方案。另外,在进行爬虫的时候,我们需要一点点的前端知识,会解析前端的 html 代码。只需要一点点哦!
法律问题:
另外爬虫,保存,使用数据会牵涉到法律问题,爬虫需谨慎。
版权声明: 本文为 InfoQ 作者【打工人!】的原创文章。
原文链接:【http://xie.infoq.cn/article/ee87dd03d59f8a6c5b4e6e887】。文章转载请联系作者。
评论