万维网是一个巨大的星型结构,里面的超链接错综复杂,大部分网站也是如此,大部分链接之间都存在循环,爬虫在爬取过程中,如果不做控制,很容易就陷入死循环。
比较好的控制就是对处理过的链接做标记,进行去重处理。一方面大部分情况下处理过的链接不需要再处理一次,另一方面也可以避免爬虫陷入死循环。
网多云链接去重
网多云的链接去重是整合在平台内部的,对开发者是透明的。但是开发者需要了解以下去重规则。
去重方式
对于GET请求的链接,平台使用链接本身做去重。需要注意的是,平台不会对链接中的#
做任何处理,http://www.example.com/
与http://www.example.com/#
是两个不同的链接。
对于POST请求的链接,平台使用链接+参数的方式做去重。也就是说,对于同一个链接,如果POST的参数不一样,平台会认为是两个不同的链接。
注意:HTTP的header不会作为去重的依据