scanUrls
String数组
API应用从这些链接开始处理,每个链接触发一次完整的链接调度并进行数据抽取。这些链接都是GET请求。
注意:
- 如果需要处理的入口链接是POST请求,可以此项留空,在initCrawl回调函数中通过site.addScanUrl来添加POST请求。
- 由于API应用最终提供的是HTTP接口,系统的超时时间是三分钟,所以建议scanUrls只给一个,以便让API调用可以尽快结束。
fields
与爬虫的fields相同,查看爬虫的configs.fields。
timeout
与爬虫的timeout相同,查看爬虫的configs.timeout。
tryTimes
与爬虫的tryTimes相同,查看爬虫的configs.tryTimes。
enableJS
与爬虫的enableJS相同,查看爬虫的configs.enableJS。
jsEngine
与爬虫的jsEngine相同,查看爬虫的configs.jsEngine。
userAgent
与爬虫的userAgent相同,查看爬虫的configs.userAgent。
acceptHttpStatus
与爬虫的acceptHttpStatus相同,查看爬虫的configs.acceptHttpStatus。