清洗也支持文件托管,因此托管相关的回调跟爬虫类似。
onEachRow
function onEachRow(row) |
@param
JS对象
row
一条源数据
@return
JS对象
清洗后的数据
在此函数中对源数据进行清洗,并返回清洗后的数据。清洗后的数据也需要是一个row对象,extraData
属性一般可以忽略,data
属性存放清洗后的数据,键与fields
的定义相对应。
row对象
- row.data
JS对象
源数据,可以通过row.data.<字段名>
的方式访问。 - row.extraData
JS对象
源数据的一些额外信息,包括__id
、__url
、__time
,分别表示源数据的id、爬取链接和爬取时间。
beforeHandleImg
function beforeHandleImg(fieldName, img) |
与爬虫的beforeHandleImg
一样,参考爬虫的beforeHandleImg。
beforeHostFile
function beforeHostFile(fieldName, url) |
与爬虫的beforeHostFile
一样,参考爬虫的beforeHostFile。
afterHostFile
function afterHostFile(fieldName, hostedUrl) |
与爬虫的afterHostFile
一样,参考爬虫的afterHostFile。