设为首页收藏本站

红色代码编程论坛

 找回密码
 加入我们
搜索
查看: 88|回复: 1

scrapy爬虫

[复制链接]
发表于 2020-5-7 17:22 | 显示全部楼层 |阅读模式
请问下,scrapy 如果要爬取整个站的内容,是要把所有页面的URL都获取到队列后才开始提取内容吗?
发表于 2020-5-7 17:39 | 显示全部楼层
一般先把首页的链接都抓进来。进入队列,然后每一个链接都去爬,发现新链接再加入到队列。可以把任务分几块来做,比如一块专门用来爬内容,一块专门爬链接加到队列。

积分兑换实物排行

您需要登录后才可以回帖 登录 | 加入我们 用百度帐号登录

本版积分规则

QQ|申请友链|小黑屋|手机版|Archiver|红色代码编程论坛 ( 鲁ICP备11027229号  

GMT+8, 2020-7-10 03:51 , Processed in 0.125000 second(s), 26 queries , Gzip On.

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表