开源精选 | 一个高效的Python爬虫框架Scrapy

《开源精选》是我们分享Github、Gitee等开源社区中优质项目的栏目，包括技术、学习、实用与各种有趣的内容。本期推荐的 Scrapy是一个快速的高级网页抓取和网页抓取框架，用于抓取网站并从其页面中提取结构化数据。它可用于广泛的用途，从数据挖掘到监控和自动化测试。

框架示例

Scrapy 是一个用于抓取网站和提取结构化数据的应用程序框架，可用于各种有用的应用程序，如数据挖掘、信息处理或历史存档。

下面是一个爬虫的代码，它从网站http://quotes.toscrape.com 中抓取名言，遵循分页：

import scrapy


class QuotesSpider(scrapy.Spider):
    name = 'quotes'
    start_urls = [
        'http://quotes.toscrape.com/tag/humor/',
    ]

    def parse(self, response):
        for quote in response.css('div.quote'):
            yield {
                'author': quote.xpath('span/small/text()').get(),
                'text': quote.css('span.text::text').get(),
            }

        next_page = response.css('li.next a::attr("href")').get()
        if next_page is not None:
            yield response.follow(next_page, self.parse)

将其放入一个文本文件中，将其命名为类似名称 quotes_spider.py 并使用以下 runspider 命令运行：

scrapy runspider quotes_spider.py -o quotes.jl

完成后，您将在 quotes.jl 文件中获得 JSON 行格式的引号列表，其中包含文本和作者，如下所示：

{"author": "Jane Austen", "text": "u201cThe person, be it gentleman or lady, who has not pleasure in a good novel, must be intolerably stupid.u201d"}
{"author": "Steve Martin", "text": "u201cA day without sunshine is like, you know, night.u201d"}
{"author": "Garrison Keillor", "text": "u201cAnyone who thinks sitting in church can make you a Christian must also think that sitting in a garage can make you a car.u201d"}

蜘蛛中间件

Spider 中间件是 Scrapy 蜘蛛处理机制的钩子框架，可以在其中插入自定义功能来处理发送给Spider进行处理的响应以及处理从蜘蛛生成的请求和项目。

架构概览

数据流：

执行流程：
1、该引擎获取从最初请求爬行蜘蛛。
2、该引擎安排在请求调度程序和要求下一个请求爬行。
3、该计划返回下一请求的引擎。
4、该引擎发送请求到下载器，通过下载器中间件。
5、页面完成下载后，下载器生成一个响应（带有该页面）并将其发送到引擎，通过下载器中间件。
6、该引擎接收来自响应下载器并将其发送到所述蜘蛛进行处理，通过蜘蛛中间件。
7、该蜘蛛处理响应并返回旗下的项目和新的要求（跟随）的引擎，通过蜘蛛中间件。
8、该引擎发送处理的项目，以项目管道，然后把处理的请求的调度，并要求今后可能请求爬行。
9、该过程重复（从第 1 步开始），直到不再有来自Scheduler 的请求。