网多云开发相关常见问题 | 网多云使用和开发文档

调用system.exit()，便可以停止应用，同时可以打印消息到日志

一般是因为该xpath抽取的数据是js渲染生成的，可以通过查看网页源代码中是否有该数据进行验证。如果是js渲染的，可以在代码中开启自动js渲染或者通过异步请求获取数据

网多云不建议在爬虫代码中使用全局变量。因为当爬虫使用多节点运行的时候，每个爬虫节点都会单独使用定义的全局变量，很容易出现冲突，可能导致爬取到的数据出现问题

一般是因为数据类型不一致导致的，比如field定义是数组，但是赋值成了字符串。所以如果要在回调函数里重新赋值，请确保前后数据类型要一致

当发布数据到CMS网站时，需要使用网多云提供的发布插件，发布插件对发布时间有特殊要求，需要使用Unix10位时间戳格式。所以如果爬取的数据要发布到CMS网站时，需要将时间字符串转换成时间戳，可以调用网多云提供的parseDateTime函数

爬取到的数据不够精准，说明设置的contentUrlRegexes或helperUrlRegexes正则表达式有问题，匹配了其他分类或关键字的列表页或内容页。这种情况建议关闭自动发现链接，使用手动发布链接的方式，确保不处理到不需要的链接。点此查看具体教程

爬取的数据中包含无用html标签，说明抽取数据的XPath或者正则不够精确，抽取的数据包含了不需要的内容。如果无法通过优化XPath或正则表达式来解决，可以参考《如何去掉网页中的广告》

上次更新：2020-04-21