清洗也支持文件托管,因此托管相关的回调跟爬虫类似。
onEachRow
function onEachRow(row) |
@paramJS对象row一条源数据
@returnJS对象清洗后的数据
在此函数中对源数据进行清洗,并返回清洗后的数据。清洗后的数据也需要是一个row对象,extraData属性一般可以忽略,data属性存放清洗后的数据,键与fields的定义相对应。
row对象
- row.data
JS对象
源数据,可以通过row.data.<字段名>的方式访问。 - row.extraData
JS对象
源数据的一些额外信息,包括__id、__url、__time,分别表示源数据的id、爬取链接和爬取时间。
beforeHandleImg
function beforeHandleImg(fieldName, img) |
与爬虫的beforeHandleImg一样,参考爬虫的beforeHandleImg。
beforeHostFile
function beforeHostFile(fieldName, url) |
与爬虫的beforeHostFile一样,参考爬虫的beforeHostFile。
afterHostFile
function afterHostFile(fieldName, hostedUrl) |
与爬虫的afterHostFile一样,参考爬虫的afterHostFile。