写点什么

数据爬虫

用户头像
RainGod
关注
发布于: 2021 年 01 月 02 日

场景

在 bigdata 大环境下,数据已成为了互联网的基石。例如企业征信,个人征信,消费金融,基金,图片,舆情,商品,商标专利等等。此时有很大一批公司将数据转化为价值。

场景 1:电商比价

在双十一或者 618 大促期间,各大电商平台在拼实力,秀肌肉。但是它们有些数据是需要数据爬虫将对方相应的商品品类抓下来和自己的品类进行对比。看看自己价格是否低于对方平台,看看自己品类是否丰富,这些数据再通过 BI 进行整合,给决策者提供了各种打法。


在 2015 年时,比价器插件比较流行,各大浏览器厂商出现了各种各样的比价插件,一旦用户安装了浏览器比价插件,当用户浏览电商网站时,插件里面会显示出不同电商网站同类别商品,并且将商品价格按照由低到高的顺序展示出来,为购买者提供了对比商品能力。比价器做法:应用爬虫将各大电商网站商品类目爬取下来,将商品名称,价格,规格,图片等等抓取下来存储到 ES,通过分词或者推荐算法提供精准和模糊搜索能力。

场景 2:消费金融

某电商公司提供了金条,白条,企业贷或者校园贷等业务,如果在某电商公司用户画像中无法体现出个人还款能力,无法拦截高风险人群。很多金融公司会让你授权:

a.抓取你各大电商订单信息

b.手机号码去各大 p2p 网站去撞库,撞库虚拟手机号

c.抓取个人征信

d.抓取企业征信

各大金融机构会对你信息进行人工画像,然后通过风控系统对贷款人进行拦截。

场景 3:舆情/基金股票

基金和股票也是各大金融公司重点,它们需要给用户提供精准风险评估。对于基金和股票都会关联上幕后母公司,法人及关联公司,通过爬虫去各大新闻网站上去获取对应的公司信息,再通过舆情分析,形成积极或者消极的指标。此时对股票和基金购买也提供了相关方向。

场景 4:医疗

医疗也是一个朝阳的行业,医疗相关数据也是会被用来作为医前问诊。例如,它们会爬取所有病例类型和症状描述及患者描述。最后将这些数据训练成 QA 模型,在相关客户端里面形成 AI 智能问答,给患者提供一些精准预测,引导用户去看什么病。


总结:还有商标,图片,图书,pdf,视频等等都可以通过爬虫技术获取相关数据。通过以上场景描述,用户数据已经在各行各业大放异彩。

抓包


模拟


解析


演变


防爬


展望

随着互联网技术革新,很多东西都可能被颠覆,网页和接口加密手段越来严格,对于数据工作者都应该遵循 robots 协议,以免引来不必要麻烦。

现在有很多互联网爬虫产品,例如 nutch,Scrapy,webMagic 等等,通过对数据爬虫场景及技术简单概述,麻雀虽小五脏俱全,只有适合自己需求才是最好的。希望对从事数据工作者有所帮助。


用户头像

RainGod

关注

折腾折腾..... 2014.01.21 加入

还未添加个人简介

评论

发布
暂无评论
数据爬虫