网多云数据清洗是什么
网多云数据清洗应用依托于网多云平台,使用JavaScript
语言进行开发,通过配置和回调函数,来构建一个可以在网多云平台上进行数据清洗的应用。
一个数据清洗应用的骨架如下:var configs = {};
var cleaner = new Cleaner(configs);
cleaner.start();
可以看到,跟爬虫很类似,基本设置和回调函数定义在对象configs
中,通过new Cleaner(configs)
来构建数据清洗应用,最后通过start
函数来启动数据清洗。
网多云数据清洗应用开发就是通过实现不同的configs
对象,来构建不同的数据清洗应用。
平台实现了什么
网多云数据清洗应用只能清洗平台上的数据(包括爬虫的爬取结果)。平台提供了可视化的设置,来设置清洗的输入数据和输出数据。运行时,会按顺序读取输入数据并进行调度,处理后得到的数据会自动存储到事先设定好的输出数据。
源数据的读取
平台封装了源数据(即输入数据)的读取,并提供了可视化的操作来设置输入数据。
源数据的调度
平台读取到源数据之后,会对每一条数据进行回调,开发者在回调函数中对数据进行清洗,返回清洗后的数据即可。
输出数据的存储
平台封装了处理后的数据的存储,只要事先设置好输出数据即可。