Scrapy执行流程_CDA答疑社区

马锦涛

2021-01-25 阅读量: 619

Scrapy执行流程

第①步：爬虫（Spider）使用URL（要爬取页面的网址）构造一个请求（Request）对象，提交给引擎（ENGINE）。如果请求要伪装成浏览器，或者设置代理IP，可以先在爬虫中间件中设置，再发送给引擎。

第②步：引擎将请求安排给调度器，调度器根据请求的优先级确定执行顺序。

第③步：引擎从调度器获取即将要执行的请求。

第④步：引擎通过下载器中间件，将请求发送给下载器下载页面。

第⑤步：页面完成下载后，下载器会生成一个响应（Response）对象并将其发送给引擎。下载后的数据会保存于响应对象中。

第⑥步：引擎接收来自下载器的响应对象后，通过爬虫中间件，将其发送给爬虫（Spider）进行处理。

第⑦步：爬虫将抽取到的一条数据实体（Item）和新的请求（如下一页的链接）发送给引擎。

第⑧步：引擎将从爬虫获取到的Item发送给项目管道（ITEM PIPELINES），项目管道实现数据持久化等功能。同时将新的请求发送给调度器，再从第②步开始重复执行，直到调度器中没有更多的请求，引擎关闭该网站。

0.0000

关注作者

发表评论

暂无数据

CDA考试动态

CDA报考指南

推荐帖子