当前位置 主页 > 网站技术 > 代码类 >

    python scrapy重复执行实现代码详解

    栏目:代码类 时间:2019-12-28 18:09

    这篇文章主要介绍了python scrapy重复执行实现代码详解,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下

    Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架,我们只需要实现少量的代码,就能够快速的抓取

    Scrapy模块:

    1、scheduler:用来存放url队列

    2、downloader:发送请求

    3、spiders:提取数据和url

    4、itemPipeline:数据保存

    from twisted.internet import reactor, defer
    from scrapy.crawler import CrawlerRunner
    from scrapy.utils.log import configure_logging
    import time
    import logging
    from scrapy.utils.project import get_project_settings
     
     
    #在控制台打印日志
    configure_logging()
    #CrawlerRunner获取settings.py里的设置信息
    runner = CrawlerRunner(get_project_settings())
     
    @defer.inlineCallbacks
    def crawl():
      while True:
        logging.info("new cycle starting")
        yield runner.crawl("xxxxx")
        #1s跑一次
        time.sleep(1)
      reactor.stop()
     
    crawl()
    reactor.run()

    以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持IIS7站长之家。