网多云Python SDK 封装了网多云rest接口,让您可以通过Python代码访问网多云rest接口。主要功能有获取用户信息,获取应用列表,爬虫控制等。
此 Python SDK 适用于2、3版本。
安装
有两种安装方式安装SDK:
pip方式
通过pip安装,在命令行中运行:
源码方式
通过源码安装,下载源码后,进入项目根目录,执行命令:
sudo python setup.py install
|
初始化
使用SDK 前,您需要获取 user_key 和 user_secret。在用户中心中可以查看
获取用户信息
首先先创建服务类shenjian.Service
import shenjian
service = shenjian.Service(user_key,user_secret)
|
获得用户余额
result = service.get_money_info()
|
获得节点信息
result = service.get_node_info()
|
获取应用列表
获取应用列表也是shenjian.Service类的功能之一
获得所有类型的应用列表
result = service.get_app_list(page=1, page_size=30)
|
获得爬虫列表
result = service.get_crawler_list(page=1, page_size=30)
|
爬虫控制
首先先创建爬虫类shenjian.Crawler
crawler = shenjian.Crawler(user_key,user_secret,appID)
|
启动爬虫
用2个节点启动爬虫
result = crawler.start(2)
|
dup_type参数是爬虫爬到重复数据时的处理方式,dup_type=’unspawn’是停止该爬虫,dup_type=’change’是更新此数据,跳过继续往后爬dup_type=’skip’,默认为skip
result = crawler.start(dup_type='unspawn')
|
change_type参数是当爬取到重复数据,对原数据的处理方式。change_type=’insert’是保留原数据,插入一条新版本数据。change_type=’update’是覆盖原数据,默认为insert
result = crawler.start(change_type='update')
|
定时启动爬虫,该例子为每天爬取一次,启动时间为上午十点,爬取结束时间为晚上11点,更多定时设置与参数详见文档
result = crawler.start(timer_type='daily',time_start='10:00',time_end='23:00')
|
停止爬虫
暂停爬虫
继续爬虫(并设置运行的节点是3个)
result = crawler.resume(3)
|
增加一个运行节点
result = crawler.add_node(1)
|
减少一个运行节点
result = crawler.reduce_node(1)
|
修改爬虫名称信息
result = crawler.edit(app_name="新的名称",app_info="新的info")
|
开启文件云托管,查看更多托管类型
result = crawler.config_host(shenjian.host_type.HOST_TYPE_SHENJIANSHOU)
|
设置爬虫自定义项(不同的爬虫自定义项不同,传递一个dict,具体参数请到相应的爬虫设置中查看)
params = {} params["crawlerStore"] = True params["pageNum"] = 10 params["productUrl"] = "https://item.example.com/3724805.php" params["keywords"] = ["男装","女装"] result = crawler.config_custom(params)
|
获取爬虫状态
result = crawler.get_status()
|
获取爬虫速率
result = crawler.get_speed()
|
获取爬虫对应的数据源信息
result = crawler.get_source()
|
获取爬虫的Webhook设置
result = crawler.get_webhook()
|
删除爬虫的Webhook设置
result = crawler.delete_webhook()
|
修改爬虫的Webhook设置(设置为新增数据发送webhook,更新数据不发送,自定义数据不发送)
result = crawler.set_webhook(self,"http://www.example.com",data_new=True,data_updated=False,msg_custom=False)
|
获取爬虫的自动发布状态
result = crawler.get_publish_status()
|
启动自动发布
result = crawler.start_publish(publish_id)
|
停止自动发布
result = crawler.stop_publish()
|
许可证
Copyright (c) 2020 网多软件科技
基于 Apache 协议发布: