Python爬虫编程思想（158）：Scrapy中的下载器中间件

Python爬虫编程思想（158）：Scrapy中的下载器中间件
蒙娜丽宁于 2022-08-14 19: 2022-8-14 19:29:11 Author: blog.csdn.net(查看原文) 阅读量:19 收藏

蒙娜丽宁于 2022-08-14 19:29:11 发布 12 收藏

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

161 篇文章 25 订阅 ¥29.90 ¥99.00

Scrapy允许使用中间件干预数据的抓取过程，以及完成其他数据处理工作。其中一类非常重要的中间件就是下载器中间件。下载器中间件可以对数据的下载和处理过程进行拦截。在Scrapy爬虫中，数据下载和处理分下面两步完成。

指定Web资源的Url，并向服务端发送请求。在这一步需要依赖于爬虫类的start_urls变量或start_requests方法。
当服务端相应Scrapy爬虫的请求后，就会返回响应数据，这时系统会将响应数据再交由Scrapy爬虫处理，也就是调用爬虫类的请求回调方法，如parse。

1. 核心方法

下载器中间件可以对这两步进行拦截。当爬虫向服务端发送请求之前，会通过下载器中间件类的process_request方法进行拦截，当爬虫处理服务端响应数据之前，会通过下载器中间件类的process_response方法进行拦截。

除了这两个方法外࿰

文章来源: https://blog.csdn.net/nokiaguy/article/details/126335151
如有侵权请联系:admin#unsafe.sh