scanUrls
String数组
API应用从这些链接开始处理,每个链接触发一次完整的链接调度并进行数据抽取。这些链接都是GET请求。
注意:
- 如果需要处理的入口链接是POST请求,可以此项留空,在
initCrawl
回调函数中通过site.addScanUrl
来添加POST请求。 - 由于API应用最终提供的是HTTP接口,系统的超时时间是三分钟,所以建议scanUrls只给一个,以便让API调用可以尽快结束。
fields
与爬虫的fields
相同,查看爬虫的configs.fields。
timeout
与爬虫的timeout
相同,查看爬虫的configs.timeout。
tryTimes
与爬虫的tryTimes
相同,查看爬虫的configs.tryTimes。
enableJS
与爬虫的enableJS
相同,查看爬虫的configs.enableJS。
jsEngine
与爬虫的jsEngine
相同,查看爬虫的configs.jsEngine。
userAgent
与爬虫的userAgent
相同,查看爬虫的configs.userAgent。
acceptHttpStatus
与爬虫的acceptHttpStatus
相同,查看爬虫的configs.acceptHttpStatus。