回调函数

清洗也支持文件托管,因此托管相关的回调跟爬虫类似。

onEachRow

function onEachRow(row)

@param JS对象 row 一条源数据

@return JS对象 清洗后的数据

在此函数中对源数据进行清洗,并返回清洗后的数据。清洗后的数据也需要是一个row对象,extraData属性一般可以忽略,data属性存放清洗后的数据,键与fields的定义相对应。

row对象

  • row.data JS对象
    源数据,可以通过row.data.<字段名>的方式访问。
  • row.extraData JS对象
    源数据的一些额外信息,包括__id__url__time,分别表示源数据的id、爬取链接和爬取时间。

beforeHandleImg

function beforeHandleImg(fieldName, img)

与爬虫的beforeHandleImg一样,参考爬虫的beforeHandleImg

beforeHostFile

function beforeHostFile(fieldName, url)

与爬虫的beforeHostFile一样,参考爬虫的beforeHostFile

afterHostFile

function afterHostFile(fieldName, hostedUrl)

与爬虫的afterHostFile一样,参考爬虫的afterHostFile