写点什么

大众碰到点评的一个字体反爬,落地技术也是绝了

作者:梦想橡皮擦
  • 2022 年 8 月 01 日
  • 本文字数:645 字

    阅读完需:约 2 分钟

📢📢📢📢📢📢💗

你正在阅读 【梦想橡皮擦】 的博客👍

阅读完毕,可以点点小手赞一下🌻

发现错误,直接评论区中指正吧📆

橡皮擦的第 621 篇原创博客


⛳️ 大众 实战场景 点评

本次要用来学习的站点也是比较大众的站点,这个站点中碰到了【套娃】字体加密。



打开开发者工具刷新站点,可以得到如下字体文件请求,打开开发者工具碰到无限 debugger,取消掉即可。



文字所在标签添加的样式如下所示。



然后顺着这个思路进行下去,得到了 4 层字体套娃。



而该 CSS 文件,在页面中竟然每次刷新也发生变化。


⛳️ 大众 实战场景 点评

编写页面获取代码,得到【图文混排 CSS】文件。


import requestsfrom lxml import etreeheaders = {    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.4951.54 Safari/537.36",    "HOST": "www.dianping.com"}
res = requests.get('http://www.dianping.com/shijiazhuang/ch10',headers=headers)tree = etree.HTML(res.text)print(tree.xpath('//link/@href')[8])
复制代码


得到 CSS 文件之后,在截取其中的字体文件。


这里不在过多解析,查阅一下字体文件每次刷新,是否发生编码变化。


第一次获取的字体文件,随意选择一份


多次测试之后,发现 CSS 文件和字体文件并未切换名称和修改顺序。


获取字体文件编码,与浏览器字符对应关系




检索源码得到如下内容:


  • :对应 7;

  • :对应 5。



再次回到字体文件中找到 7 和 5 对应的编码。



本案例结束~ 🤪🤪🤪🤪


📣📣📣📣📣📣

右下角有个大拇指,点赞的漂亮加倍


发布于: 刚刚阅读数: 3
用户头像

爬虫 100 例作者,蓝桥签约作者,博客专家 2021.02.06 加入

6 年产品经理+教学经验,3 年互联网项目管理经验; 互联网资深爱好者; 沉迷各种技术无法自拔,导致年龄被困在 25 岁; CSDN 爬虫 100 例作者。 个人公众号“梦想橡皮擦”。

评论

发布
暂无评论
大众碰到点评的一个字体反爬,落地技术也是绝了_Python_梦想橡皮擦_InfoQ写作社区