Laity-J哥：【Scrapy从青铜到王者】第一篇：Scrapy理解

当前位置博文首页 > Laity-J哥：【Scrapy从青铜到王者】第一篇：Scrapy理解

# 基于终端存储 方式
import scrapy


class QiubaiSpider(scrapy.Spider):
    name = 'qiubai'
    # allowed_domains = ['www.xxx.com']
    start_urls = ['https://www.qiushibaike.com/text/']

    def parse(self, response):
        # 解析：作者的名称+段子内容
        div_list = response.xpath('//div[@class="col1 old-style-col1"]/div')
        for div in div_list:
            # author  content 不是返回值 是局部变量
            all_data = []  # 存储所有解析到的数据
            # author = div.xpath('./div[学习计划]/a[2]/h2/text()')[0].extract()  # [0] 列表长度
            author = div.xpath('./div[学习计划]/a[2]/h2/text()').extract_first()
            # [0] 列表长度  一定要确定 该列表中只有一个列表元素才可以用extract_first() 将列表中第0个元素变成字符串

            # 所有 xpath取回的都是列表 , 但是列表一定是Selector类型对象
            # extract 可以将Selector 对象中data参数储存的字符串提取出来
            content = div.xpath('./a[学习计划]/div/span//text()').extract()
            # 现在本身就是列表  但是列表也能调用.extract()  但返回的是一个列表
            # 列表调用.extract()之后，则表示将列表中每个Selector对象中的data对应的字符串提取出来
            content = ''.join(content)  # 列表转成字符串
            # print(author, content)
            dic = {
                'author': author,
                'content': content
            }

            all_data.append(dic)
            return all_data

Laity-J哥：【Scrapy从青铜到王者】第一篇：Scrapy理解

作者：[db:作者] 时间：2021-08-25 15:46

什么是框架：就是一个集成了很多功能，并且具有很强的通用性的一个项目模板

如何学习框架： 专门学习框架封装的各种功能的详细用法

什么是scrapy ：爬虫中封装好的一个明星框架。

功能： 学习计划.高性能持久化存储，异步的数据下载，高性能的数据解析，分布式

??????????????????? scrapy.cfg 配置文件? 目前用不到?? spiders 爬虫文件夹或者为爬虫目录????? 里面一定要放入一个 爬虫源文件 ??????????????????? pipelines.py 配置? settings.py工程的配置文件 经常使用

??????????????????? 干扰数据清除 ： scrapy crawl py文件名称 --nolog

-- 数据解析? ：糗百案例yiubaiPro

?-- 五大核心组件： 引擎 ，管道 ，引擎 ，下载器 ，spider ---》互联网 ??? - spider --》引擎--》调度器--》过滤器 ??? - spider --》引擎--》调度器--》队列

-- 请求传参：应用的非常广 ??????? --使用场景: 如果爬取解析的数据不在同一张页面中。（深度爬取） ??????? --需求 ：爬取boos的直聘的岗位名称和岗位描述 ??????? --我们爬取的解析数据不在同一个页面 就要用 请求传参

??????? - 在配置文件中操作: ??????????? - 制定图片存放目录: IMAGES_STORE = './img_Jg' ??????????? - 制定开启的管道:自定制的管道类

最新 更多<<

推荐 更多<<

如何学习框架：专门学习框架封装的各种功能的详细用法

功能：学习计划.高性能持久化存储，异步的数据下载，高性能的数据解析，分布式

??????????????????? scrapy.cfg 配置文件? 目前用不到?? spiders 爬虫文件夹或者为爬虫目录????? 里面一定要放入一个爬虫源文件
??????????????????? pipelines.py 配置? settings.py工程的配置文件经常使用

??????????????????? 干扰数据清除： scrapy crawl py文件名称 --nolog

?-- 五大核心组件：引擎，管道，引擎，下载器，spider ---》互联网
??? - spider --》引擎--》调度器--》过滤器
??? - spider --》引擎--》调度器--》队列

-- 请求传参：应用的非常广
??????? --使用场景: 如果爬取解析的数据不在同一张页面中。（深度爬取）
??????? --需求：爬取boos的直聘的岗位名称和岗位描述
??????? --我们爬取的解析数据不在同一个页面就要用请求传参

??????? - 在配置文件中操作:
??????????? - 制定图片存放目录: IMAGES_STORE = './img_Jg'
??????????? - 制定开启的管道:自定制的管道类

最新更多<<

推荐更多<<