一般来说,不同的类型链接承载了不同的网页内容,比如文章的列表页和文章的详情页,而我们一般只关心最终承载数据的网页。
为了加快爬虫的爬取效率,我们将网页链接进行了分类,入口页、帮助页和内容页,以便爬虫能尽快地找到内容页进行爬取。
入口页
我们也叫scanUrl,这种网页一般作为爬虫的入口。
帮助页
我们也叫helperUrl,这种网页一般包含大量的内容页,多数情况下是一个内容列表,所以我们也叫列表页,主要用途是帮助发现内容页。
内容页
我们也叫contentUrl,这种网页承载了我们关心的数据,网多云爬虫只在这种网页上做数据抽取。对于需要的部分数据在列表页上,我们通过urlContext
来解决。对于所需的数据全部在列表页,这种情况我们叫单页面多数据,后面会有专门的章节做介绍。