写点什么

如何有效管理爬虫流量?

  • 2023-06-16
    北京
  • 本文字数:851 字

    阅读完需:约 3 分钟

本文分享自天翼云开发者社区《如何有效管理爬虫流量?》,作者:刘****海

 

据国际知名金融广告服务平台提供商 Dianomi 的报告《2018 Robot traffic report》的数据,在互联网上人类流量仅仅占了 48.2%,也就是说,一个页面的 10000 个点击里面,大约 5100 个来自机器人。在航旅票务等行业,热门数据接口中甚至有超过 95% 的流量是来自爬虫。如何有效管理爬虫流量,是当下业务安全面临的问题。

最早“诞生”的好爬虫

 常见的善意 Bot 有百度爬虫、谷歌爬虫、必应爬虫等搜索引擎类爬虫,此类爬虫经常被企业用于提高站点在搜索引擎内的自然排名,使得站点在各大搜索引擎中的排名能够提高,进一步通过搜索引擎来进行引流为企业增加业务流量。

恶意爬虫带来的业务安全风险

大量“变异”的爬虫很快充斥网络,通过模拟正常用户活动和行为,大肆进行数据窃取、资源占用、薅羊毛等违法违规操作,导致从数据到业务、金钱,方方面面的安全风险

恶意爬虫特征

恶意 BOT 在 AI 技术的加持下已“进化”成智能化网络机器人给个人用户、商业平台带来巨大危害,它通常有以下几个“DNA”:

1.高并发

利用云端基础设施或者 IDC 机器集群,形成极高的并发访问能力

2.速度快

可在短时间内形成超量的访问,在一夜之间薅走百亿规模的羊毛

3.全天候

可以 7*24*365 的工作,秒杀一切 996,甚至为了逃避侦测,经常昼伏夜出、凌晨作案

4.自动化

可在完全无人看守和干预的情况下,模拟大部分人类行为并完成恶意任务,从拖库撞库、登录测试,到图片验证码破解、薅羊毛等所有任务都可以执行

5.智能化

AI 技术加持,拥有超高“智慧”

如何有效防护恶意爬虫

1.威胁情报库

依托网络安全经验和大数据情报,精准识别拨号池 IP、IDC 机房 IP、恶意扫描工具 IP 等多种维度的爬虫威胁情报规则,方便您在全域名或指定路径下设置阻断恶意爬虫的访问请求

2.人机交互验证

用对人类不可见的挑战机制,在不影响用户体验的基础上,要求客户端证明其支持存储 Cookie 和执行 JavaScript,从而识别出爬虫和正常用户

3.威胁分析

收集线上日志数据,输入异常分析检测模块中,根据已定规则进行多维度、上下文分析,输出异常客户端信息。

 

用户头像

还未添加个人签名 2022-02-22 加入

天翼云是中国电信倾力打造的云服务品牌,致力于成为领先的云计算服务提供商。提供云主机、CDN、云电脑、大数据及AI等全线产品和场景化解决方案。

评论

发布
暂无评论
如何有效管理爬虫流量?_网络安全_天翼云开发者社区_InfoQ写作社区