Python爬虫编程思想(153):使用Scrapy抓取数据,抓取多个Url
蒙娜丽宁 于 2022-06-28 17: 2022-6-28 17:34:24 Author: blog.csdn.net(查看原文) 阅读量:12 收藏

蒙娜丽宁 于 2022-06-28 17:34:24 发布 651 收藏

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。

153 篇文章 24 订阅 ¥29.90 ¥99.00

        在前面的案例中都是只抓取了一个Url对应的页面,但在实际应用中,通常需要抓取多个Url,在爬虫类的start_urls变量中添加多个Url,运行爬虫时就会抓取start_urls变量中所有的Url。下面的代码在start_urls变量中添加了2个Url,运行MultiUrlSpider爬虫后,就会抓取这两个Url对应的页面。

class MultiUrlSpider(scrapy.Spider):
    name = 'MultiUrlSpider'
    start_urls = [
       'https://www.jd.com',
       'https://www.taobao.com'        
    ]    
    ... ...

        下面的例子通过一个文本文件(urls.txt)提供多个Url,并在爬虫类中读取urls.txt文件中的内容,然后将读取的多个Url存入start_urls变量中。最后会抓取urls.txt文件中所有的Url对应的页面,并输出页面的博文数(本例提供的Url是geekori.com的博文列表页面,如果读者使用其他的Url,需要修改分析页面的逻辑代码)。

import scrapy
class MultiUrlSpider(scrapy.Spider):
    name = 'Mult

文章来源: https://blog.csdn.net/nokiaguy/article/details/125506849
如有侵权请联系:admin#unsafe.sh