算法和反爬虫算法和反爬虫

24小时更新:0篇     一周更新:0篇最新发布

有挑战的反爬虫

有问有答丨填补大众点评字体反爬虫中的一个暗坑

19

sfhfpc 发布于 2020-03-21 14-31-23

事情很直接,我来分享一下。在技术群里有朋友提出了这么一个问题和需求: 上面的一连串截图就是事情的大致经过,我来整理一下。群友 Ares 遇到的问题是在面对大众点评字体爬时不知道如何确定被混淆文字的位置,且混淆位置是随机的。当你遇到下图的代码时: 被混淆的是后面 3 位,前 2 位...

阅读(126)评论(0)赞 (0)

技术流综合知识

如何设计一款地震高岗一派溪山千古秀的反爬虫?

14

sfhfpc 发布于 2020-03-21 14-22-09

地震高岗,一派溪山千古秀; 门朝大海,三河合水万年流; 没错,这正是《鹿鼎记》天地会的接头暗号。 天地会为什么需要接头暗号呢? 假设天地会赤火堂香主派人从京城前扬州将一封非常重要的密函交给青木堂香主韦小宝,我们可以将这件事抽象为下图: 这件事的核心是帮派成员-甲将重要密函交给帮派...

阅读(43)评论(0)赞 (0)

优秀的库和资源

东鸽送3台|做开发没有云服务器怎么行? 扫码抽奖

10

sfhfpc 发布于 2020-02-23 09-43-06

随着云计算和虚拟技术的发展,主机业务从虚拟主机逐步发展到独享云服务器。我们 IT 人对服务器的需求是很强烈的,无论你是后端研发、前端开发、云计算、大数据、架构、数据存储、运维还是产品经理,每个人手上多多少少都会有几台云服务器。 这些云服务器被用做测试用机、学习用机或者正式生产用机...

阅读(89)评论(0)赞 (0)

令人头疼的算法

Rust 算法排位记 – 插入排序的示意和代码实现 有坑要注意

2

sfhfpc 发布于 2020-01-30 13-56-07

Rust 代码在编写过程中与其它语言的略有不同,因为它的编译器不允许有任何不安全的写法,遂代码编写过程中花费时间最长的莫过于查找编译报错的原因。这样也有好处——代码写好之后,稳定性高得一笔! 以下是来自菜鸟教程中的排序定义和动图示意: 插入排序(英语:Insertion Sort...

阅读(120)评论(0)赞 (0)

有挑战的反爬虫

揭秘去哪儿网在用的 CSS 偏移反爬虫手段! 真带劲

12

sfhfpc 发布于 2019-12-31 16-44-19

内容选自即将出版的《Python3 反爬虫原理与绕过实战》,本次公开书稿范围为第 6 章——文本混淆反爬虫。本篇为第 6 章中的第 2 小节,第 3、4 小节已发,直达链接: 《一线大厂在用的反爬虫手段,看我破!》 《用前考虑清楚,伤敌一千自损八百的字体反爬虫》 其余小节将逐步放...

阅读(332)评论(0)赞 (0)

Python3 系列课

手把手带你整得明明白白 Flask/Django+uWSGI+Nginx

19

sfhfpc 发布于 2019-12-14 16-21-05

Web 项目(例如 Flask 项目、Django 项目)开发完成后定然是要部署到服务器上的,我也曾翻阅很多文章,零零碎碎地将知识点拼凑起来,还踩了不少的坑,最终实现了项目的部署。 这里将部署过程和配置说明作了整理,希望能够帮助到有需要的开发者。 本文围绕 Flask 和 Dja...

阅读(539)评论(0)赞 (0)

有挑战的反爬虫

k 近邻算法解决字体反爬手段 效果非常好

5

sfhfpc 发布于 2019-11-12 12-39-08

这种反爬虫手段通常被用来保护页面中的关键数据,例如影片票房、外卖平台的商家电话、汽车门户上的车型报价或者是电商平台上商品的属性和价格。 本篇文章要解决的问题,是如何让程序准确的识别那些用自定义字体代替的文字。

阅读(921)评论(1)赞 (7)

技术流综合知识

Python 系统资源信息获取工具 你用过没

12

sfhfpc 发布于 2019-11-10 18-32-36

如果你需要通过 Python 代码来监控服务器资源信息,比如内容占用情况、cpu 资源消耗以及资源不足发送警报等,那么这篇文章很适合你。 香香的口味,你吃过没? 辣辣的感觉,你尝过没? 网爆红人的歌声,你听过没? Python 系统资源信息获取的工具,你用过没? 真正的烤面筋 可...

阅读(307)评论(0)赞 (1)

技术流综合知识

Redis 数据持久化详解与实践 动图详解

23

sfhfpc 发布于 2019-11-10 18-02-32

Redis 是一个开源( BSD 许可)的,内存中的数据结构存储系统,它可以用作数据库、缓存和消息中间件。它支持的数据类型很丰富,如字符串、链表、集 合、以及散列等,并且还支持多种排序功能。 什么叫持久化? 用一句话可以将持久化概括为:将数据(如内存中的对象)保存到可永久保存的存...

阅读(191)评论(0)赞 (0)

流畅的爬虫之路

如何将 Scrapy 项目打包部署到服务器 动图详解

10

sfhfpc 发布于 2019-11-10 17-50-28

当爬虫代码编写完毕后,你可以选择直接运行启动文件来启动爬虫,也可以将爬虫部署到 Scrapyd 后,通过 Scrapyd 的 API 来启动爬虫。 那么如何将爬虫项目打包并部署到 Scrapyd 呢? 笔者 将通过两个具体的部署例子(部署到本地以及部署到云服务器)以熟悉 Scra...

阅读(448)评论(1)赞 (3)

优质的学习材料

MongoDB 进阶教程–流式聚合操作

5

sfhfpc 发布于 2019-11-10 16-50-31

信息科学中的聚合是指对相关数据进行内容筛选、处理和归类并输出结果的过程。MongoDB 中的聚合是指同时对多个文档中的数据进行处理、筛选和归类并输出结果的过程。数据在聚合操作的过程中,就像是水流过一节一节的管道一样,所以 MongoDB 中的聚合又被人称为流式聚合。MongoDB...

阅读(235)评论(0)赞 (0)

技术流综合知识

实战!手把手带你搭建图像分类 AI 服务 几分钟就能学会

31

sfhfpc 发布于 2019-11-10 15-28-33

人工智能技术(以下称 AI)是人类优秀的发现和创造之一,它代表着至少几十年的未来。在传统的编程中,工程师将自己的想法和业务变成代码,计算机会根据代码设定的逻辑运行。与之不同的是,AI 使计算机有了属于自己的思想,它就像生物一样,能够看、听、说、动、理解、分辨和思考。 AI 在图像...

阅读(204)评论(0)赞 (0)

令人头疼的算法

关于位运算,有这一篇就够了! 7 分钟即可掌握

10

sfhfpc 发布于 2019-11-10 15-08-33

位运算是我们在编程中常会遇到的操作,但仍然有很多开发者并不了解位运算,这就导致在遇到位运算时会“打退堂鼓”。实际上,位运算并没有那么复杂,只要我们了解其运算基础和运算符的运算规则,就能够掌握位运算的知识。接下来,我们一起学习位运算的相关知识。 程序中的数在计算机内存中都是以二进制...

阅读(325)评论(0)赞 (3)

关于作者

编程故事 转行自学 2 年的 Python 开发者

8

sfhfpc 发布于 2019-11-10 09-59-27

我毕业六年了,但与技术和 Python 相关的工作经验也就两年。今天我想跟大家分享自己转行的故事,希望能够鼓励那些跟我一样的朋友共同前行。 我们将会聊到我个人的经历和入行故事,个人的技术成就,我 2019 年上半年和下半年的工作重点,讨论快速学习的方法,最后推荐一些学习资源。 个...

阅读(427)评论(0)赞 (5)