标签:反爬虫

有挑战的反爬虫

有问有答丨填补大众点评字体反爬虫中的一个暗坑

19

sfhfpc 发布于 2020-03-21 14-31-23

事情很直接,我来分享一下。在技术群里有朋友提出了这么一个问题和需求: 上面的一连串截图就是事情的大致经过,我来整理一下。群友 Ares 遇到的问题是在面对大众点评字体爬时不知道如何确定被混淆文字的位置,且混淆位置是随机的。当你遇到下图的代码时: 被混淆的是后面 3 位,前 2 位...

阅读(126)评论(0)赞 (0)

技术流综合知识

如何设计一款地震高岗一派溪山千古秀的反爬虫?

14

sfhfpc 发布于 2020-03-21 14-22-09

地震高岗,一派溪山千古秀; 门朝大海,三河合水万年流; 没错,这正是《鹿鼎记》天地会的接头暗号。 天地会为什么需要接头暗号呢? 假设天地会赤火堂香主派人从京城前扬州将一封非常重要的密函交给青木堂香主韦小宝,我们可以将这件事抽象为下图: 这件事的核心是帮派成员-甲将重要密函交给帮派...

阅读(43)评论(0)赞 (0)

有挑战的反爬虫

揭秘去哪儿网在用的 CSS 偏移反爬虫手段! 真带劲

12

sfhfpc 发布于 2019-12-31 16-44-19

内容选自即将出版的《Python3 反爬虫原理与绕过实战》,本次公开书稿范围为第 6 章——文本混淆反爬虫。本篇为第 6 章中的第 2 小节,第 3、4 小节已发,直达链接: 《一线大厂在用的反爬虫手段,看我破!》 《用前考虑清楚,伤敌一千自损八百的字体反爬虫》 其余小节将逐步放...

阅读(332)评论(0)赞 (0)

有挑战的反爬虫

k 近邻算法解决字体反爬手段 效果非常好

5

sfhfpc 发布于 2019-11-12 12-39-08

这种反爬虫手段通常被用来保护页面中的关键数据,例如影片票房、外卖平台的商家电话、汽车门户上的车型报价或者是电商平台上商品的属性和价格。 本篇文章要解决的问题,是如何让程序准确的识别那些用自定义字体代替的文字。

阅读(921)评论(1)赞 (7)