爬虫生命周期

爬虫完成基本的初始化之后,通过回调initCrawlbeforeCrawl等函数完成一些高级的初始化设置,然后控制权交给链接调度器。链接调度对待爬队列中的url进行调度,每个url进入其生命周期,直至待爬队列中的url为空,调用afterCrawlbeforeExit结束爬虫。完整生命周期如下图:


爬虫生命周期