当前位置 博文首页 > 利用Python+Selenium破解春秋航空网滑块验证码的实战过程

    利用Python+Selenium破解春秋航空网滑块验证码的实战过程

    作者:小雁子学Python 时间:2021-09-17 18:37

    目录
    • 前言
    • 开发工具
    • 环境搭建
    • 实战记录
      • 一. 验证码简介
      • 二.破解滑块验证码
        • 2.1 计算滑块到缺口的距离
        • 2.2 将滑块拖到缺口位置

    前言

    记录一次利用Python+Selenium破解滑块验证码的实战过程。
    让我们愉快地开始吧~

    在这里插入图片描述

    开发工具

    Python版本: 3.6.4

    相关模块:

    pillow模块;

    selenium模块;

    numpy模块;

    以及一些Python自带的模块。

    其他:

    chromedriver

    环境搭建

    安装Python并添加到环境变量,pip安装需要的相关模块即可。

    实战记录

    本文将记录一次春秋航空的会员注册页面所使用的滑块验证码破译过程,地址为:

    https://account.ch.com/NonRegistrations-Regist

    一. 验证码简介

    验证码,即CAPTCHA,全自动区分计算机和人类的公开图灵测试,换而言之,验证码是一种用于区分人类与计算机的测试,只有通过了CAPTCHA,当前用户才被认为是人类。

    二.破解滑块验证码

    滑块验证码,即用户使用鼠标将滑块从某个位置拖动到另一个位置,服务器通过用户拖动滑块的轨迹来判断当前用户是否为人类。本文将尝试破解的是一种拼图式的滑块验证码:

    图片

    首先,我手动完成了一次滑块验证码的验证,想看看需要向服务器端发送什么请求才算是通过了验证,随便点开了一个,发现请求需要的参数是这样的:

    在这里插入图片描述

    搞清楚每个参数当然是可以的,简单想了一下,感觉应该是这样的:

    首先,利用图像处理技术计算滑块到缺口的距离。然后,利用机器以与人类行为相似的方式将滑块拖到缺口位置,完成验证。

    2.1 计算滑块到缺口的距离

    首先,我们利用Selenium进入滑块验证码界面:

    图片

    也就是这个界面:

    图片

    那么滑块到缺口的距离该如何计算呢?

    之前看到很多人是这么算的:

    出现滑块验证码界面时对屏幕进行截图(此时背景图是完整的),然后模拟点击滑动圆球,使滑块和缺口出现(此时背景图是有缺口的),此时再次截图,通过对比两次截图即可轻松地找到缺口位置。

    但是,此方案的前提是在点击滑动圆球之后才出现滑块和缺口,点击之前是完整的背景图。这个方案在不久前还是可行的,但是魔高一尺道高一丈,数天前滑块验证码版本升级了!!!滑块验证码直接显示滑块和缺口了!!!也就是不给你看原图了。

    既然准备用机器学习,算法先不考虑,总得先有训练数据吧,于是我手动刷新了几次,想研究一下验证码图片该如何获取,实在不行就手动保存个几百张。可一刷新,发现了一件了不起的事情,这网站滑块验证码的背景图只有四张!

    根本不需要爬验证码,手工标注,然后训练了。或许有人会问,为什么呢?

    因为就四张背景图啊!!!你完全可以这样:
    对当前的滑块验证码界面进行截图,与对应的完整背景图进行对比,找到缺口位置,即可计算出滑块到缺口的距离了(滑块初始位置的横坐标是固定的)。

    上述方案有如下两个问题:

    (1)如何获取完整的背景图?

    答案:当你完成滑块验证码的验证时,还是会出现对应的完整背景图的,通过截屏软件截下图就好了。

    结果如下:

    图片

    (2)怎么找到当前滑块验证码对应的完整背景图?

    答案:因为只有四张图,没必要用一些高大上的图像匹配算法,看了下四张图左上角顶点处的像素值,其中R值分别为:255,217,227,100,显然,通过对比背景图左上角顶点处的像素值即可找到当前滑块验证码对应的完整背景图了,代码实现如下:

    图片

    注意,因为截图是这样子的:

    图片

    所以验证码背景图左上角顶点处的坐标会随着电脑和截屏方式的改变而改变(具体而言,Selenium和我电脑上的截屏软件截出来的图,验证码背景图的位置坐标是不一样的,需要通过画图软件确定具体位置)。

    所以如果你无法用我的代码完成滑块验证码破解的话,请自行修改(787, 282)和(787, 293)为适合你自己电脑实际情况的坐标值。

    接下来,我们就可以计算滑块到缺口的距离了!

    先截取当前滑块验证码界面,代码实现如下:

    图片

    这里我们把滑块先移动到最右端再截图,否则滑块将影响当前验证码界面与对应的完整背景图之间的像素对比(即第一次找到的像素差异较大点在滑块上而不是在期望的缺口上)。

    然后通过与对应的完整背景图进行像素值对比,找到缺口位置,即可计算出滑块到缺口的距离了(因为滑块初始位置的横坐标是固定的):

    图片

    2.2 将滑块拖到缺口位置

    接下来,我们需要利用机器以与人类行为相似的方式将滑块拖到缺口位置,完成验证。

    一般而言,人手工拖动滑块的轨迹是这样的:

    图片

    即:先快速向右拖动,快到缺口时,再减速慢调。那么这样的轨迹该如何生成呢?

    我想了两种方案:

    方案一是根据物理学中的加速度减速度来模拟拖动滑块的轨迹,代码实现如下:

    图片

    方案二是直接构造一些函数来模拟拖动滑块的轨迹,函数代码实现如下:

    图片

    最后,使用Selenium按照设定的轨迹将滑块移动到缺口处即可:

    图片

    文章到这里就结束了,感谢你的观看,Python24个小游戏系列,下篇文章分享Python+Selenium破译B站滑块验证码

    jsjbwy