流畅的爬虫之路

有问有答丨填补大众点评字体反爬虫中的一个暗坑

19

sfhfpc 发布于 2020-03-21 14-31-23

事情很直接,我来分享一下。在技术群里有朋友提出了这么一个问题和需求: 上面的一连串截图就是事情的大致经过,我来整理一下。群友 Ares 遇到的问题是在面对大众点评字体爬时不知道如何确定被混淆文字的位置,且混淆位置是随机的。当你遇到下图的代码时: 被混淆的是后面 3 位,前 2 位...

阅读(369)评论(0)赞 (1)

如何设计一款地震高岗一派溪山千古秀的反爬虫?

14

sfhfpc 发布于 2020-03-21 14-22-09

地震高岗,一派溪山千古秀; 门朝大海,三河合水万年流; 没错,这正是《鹿鼎记》天地会的接头暗号。 天地会为什么需要接头暗号呢? 假设天地会赤火堂香主派人从京城前扬州将一封非常重要的密函交给青木堂香主韦小宝,我们可以将这件事抽象为下图: 这件事的核心是帮派成员-甲将重要密函交给帮派...

阅读(158)评论(0)赞 (0)

揭秘去哪儿网在用的 CSS 偏移反爬虫手段! 真带劲

12

sfhfpc 发布于 2019-12-31 16-44-19

内容选自即将出版的《Python3 反爬虫原理与绕过实战》,本次公开书稿范围为第 6 章——文本混淆反爬虫。本篇为第 6 章中的第 2 小节,第 3、4 小节已发,直达链接: 《一线大厂在用的反爬虫手段,看我破!》 《用前考虑清楚,伤敌一千自损八百的字体反爬虫》 其余小节将逐步放...

阅读(483)评论(0)赞 (0)

如何将 Scrapy 项目打包部署到服务器 动图详解

10

sfhfpc 发布于 2019-11-10 17-50-28

当爬虫代码编写完毕后,你可以选择直接运行启动文件来启动爬虫,也可以将爬虫部署到 Scrapyd 后,通过 Scrapyd 的 API 来启动爬虫。 那么如何将爬虫项目打包并部署到 Scrapyd 呢? 笔者 将通过两个具体的部署例子(部署到本地以及部署到云服务器)以熟悉 Scra...

阅读(544)评论(0)赞 (3)