网多云API应用是什么
网多云API应用依托于网多云平台,使用JavaScript
语言进行开发,跟网多云爬虫类似,也是通过配置和回调函数,来构建一个可以在网多云平台上运行并抽取指定数据的应用,并对外提供一个HTTP接口。
一个网多云API应用的骨架如下:var configs = {};
var fetcher = new Fetcher(configs);
fetcher.start();
可以看到,跟爬虫很类似,基本设置和回调函数定义在对象configs
中,通过new Fetcher(configs)
来构建API应用,最后通过start
函数来触发数据抽取。
网多云API应用开发就是通过实现不同的configs
对象,来构建不同的API应用。
爬虫的简化版
API应用可以简单理解为是爬虫的单次调用版本,相对于爬虫,API主要少了链接发现模块。
链接调度
API应用实际上只对入口链接做了一次链接调度,基本上可以认为API应用也没有链接调度模块。
网页下载
网页下载跟爬虫没有区别,唯一注意的是,API应用中不建议使用JS渲染,因为会严重影响到API的速度。
数据抽取
跟爬虫几乎完全一样。
数据存储
API应用不做数据存储,而是直接把数据以JSON字符串的形式返回,这个是平台封装好的,开发者不需要做额外的工作。