首页 > Python > Scrapyd部署爬虫项目
2020
07-03

Scrapyd部署爬虫项目

1. 准备

pip install  scrapyd  scrapyd-client  scrapydweb

 

2. 运行scrapyd

#新的cmd中 运行

scrapyd

Scrapyd部署爬虫项目 - 第1张  | 技术人生

 

3. 修改scrapy 项目参数

Scrapyd部署爬虫项目 - 第2张  | 技术人生

# Automatically created by: scrapy startproject
#
# For more information about the [deploy] section see:
# https://scrapyd.readthedocs.io/en/latest/deploy.html

[settings]
default = scrapyRabbitmq.settings

[deploy]
url = http://127.0.0.1:6800/   #取消注释
project = scrapyRabbitmq

 

4. curl 添加项目

# 在项目目录下执行 scrapyd-deploy

scrapyd-deploy

 

Scrapyd部署爬虫项目 - 第3张  | 技术人生

 

Scrapyd部署爬虫项目 - 第4张  | 技术人生

 

5. 运行spider

 

curl http://localhost:6800/schedule.json -d project=scrapyRabbitmq -d spider=shopee-sg-comment

 

Scrapyd部署爬虫项目 - 第5张  | 技术人生

 

Scrapyd部署爬虫项目 - 第6张  | 技术人生

 

6. 取消spider运行

curl http://localhost:6800/cancel.json -d project=scrapyRabbitmq -d job=514e53dcbcd911eaa6c6e0d55eec7705

Scrapyd部署爬虫项目 - 第7张  | 技术人生

 

Scrapyd部署爬虫项目 - 第8张  | 技术人生

 

7.其他操作

删除scrapy项目
curl http://localhost:6800/delproject.json -d project=scrapy项目名称(要先停止)

查看有多少个scrapy项目在api中

curl http://localhost:6800/listprojects.json

1、获取状态
http://127.0.0.1:6800/daemonstatus.json
2、获取项目列表
http://127.0.0.1:6800/listprojects.json
3、获取项目下已发布的爬虫列表
http://127.0.0.1:6800/listspiders.json?project=myproject
4、获取项目下已发布的爬虫版本列表
http://127.0.0.1:6800/listversions.json?project=myproject
5、获取爬虫运行状态
http://127.0.0.1:6800/listjobs.json?project=myproject
6、启动服务器上某一爬虫(必须是已发布到服务器的爬虫)
http://127.0.0.1:6800/schedule.json (post方式,data={“project”:myproject,”spider”:myspider})
7、删除某一版本爬虫
http://127.0.0.1:6800/delversion.json
(post方式,data={“project”:myproject,”version”:myversion})
8、删除某一工程,包括该工程下的各版本爬虫

http://127.0.0.1:6800/delproject.json(post方式,data={“project”:myproject})

最后编辑:
作者:sunny5156
喜欢技术....

留下一个回复