当前位置 博文首页 > Python使用scrapy采集时伪装成HTTP/1.1的方法

    Python使用scrapy采集时伪装成HTTP/1.1的方法

    作者:pythoner 时间:2021-07-30 18:51

    本文实例讲述了Python使用scrapy采集时伪装成HTTP/1.1的方法。分享给大家供大家参考。具体如下:

    添加下面的代码到 settings.py 文件

    复制代码 代码如下:
    DOWNLOADER_HTTPCLIENTFACTORY = 'myproject.downloader.HTTPClientFactory'

    保存以下代码到单独的.py文件
    复制代码 代码如下:
    from scrapy.core.downloader.webclient import ScrapyHTTPClientFactory, ScrapyHTTPPageGetter
    class PageGetter(ScrapyHTTPPageGetter):
        def sendCommand(self, command, path):
            self.transport.write('%s %s HTTP/1.1\r\n' % (command, path))
    class HTTPClientFactory(ScrapyHTTPClientFactory):
         protocol = PageGetter

    希望本文所述对大家的Python程序设计有所帮助。

    jsjbwy