当前位置 博文首页 > wang785994599的博客:如何使用尽可能少的代理IP爬取尽可能多的

    wang785994599的博客:如何使用尽可能少的代理IP爬取尽可能多的

    作者:[db:作者] 时间:2021-09-06 18:53

    越来越多的网站采用了封(限制)IP的策略,单个IP访问过于频繁就会被献祭掉,但我们的IP数量是有限的,当遇到大型网站时,如果使用尽可能少的资源完成尽可能多的资源获取呢?(针对短效IP)

    确定IP被封的条件,找出不被封的临界点

    如果某网站的限制条件为:每0.5秒访问一次,连续访问100次就封禁,那么我设置成0.55秒访问一次,是否就可以绕过这个低级的反爬?实测是可行的,但这样做的网站很少,据说现在很多网站采用机器学习来鉴别人机,这种情况下又该如何处理?模拟人的访问特征?海量IP?从成本上而言,还是使用更多的IP更划算一些。

    合适的并发量

    如果目标网站不是通过单纯的频率来限制而是通过分析我们的行为来确认,那么我们即使加了采集间隔过了一会仍然会被认为是机器,这时候适合提升并发请求量,在其确认你身份前完成尽可能多的数据的采集。

    如现在在做的某个网站采集,如果设置采集间隔并限制并发请求量,虽然可以保证IP不被封,但是速度大打折扣,后来索性加大了并发量并取消采集间隔,速度就提上来了,之前的速度为每分钟3000左右。

    cs