Python爬虫编程思想(152):使用Scrapy抓取数据,使用ItemLoader保存多条抓取的数据
蒙娜丽宁 于 2022-06-28 17: 2022-6-28 17:30:49 Author: blog.csdn.net(查看原文) 阅读量:12 收藏

蒙娜丽宁 于 2022-06-28 17:30:49 发布 606 收藏

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。

153 篇文章 24 订阅 ¥29.90 ¥99.00

        在上一篇文章中通过ItemLoader保存了一条抓取的数据,如果要保存多条或所有抓取的数据,就需要parse方法返回一个MyscrapyItem数组。

        下面的例子仍然会抓取上一篇文章例子中的博客列表页面,但会保存抓取页面所有的博客数据,包括每条博客的标题、摘要和Url。

import scrapy
from scrapy.loader import *
from scrapy.loader.processors import *
from bs4 import *
from myscrapy.items import MyscrapyItem
class ItemLoaderSpider1(scrapy.Spider):
    name = 'ItemLoaderSpider1'
    start_urls = [
        'https://geekori.com/blogsCenter.php?uid=geekori'
    ]
    def parse(self,response):
        # 要返回的MyscrapyItem对象数组  
        items = []

        # 获取博客页面的博客列表数据
        sectionList = response.xpath('//*[@id="all"]/div[1]/section').extract()
        # 通过循环迭代处理每一条博客列表数据  
        for section in sectionList:
       

文章来源: https://blog.csdn.net/nokiaguy/article/details/125506738
如有侵权请联系:admin#unsafe.sh