tar
tarantulajs
npm i tarantulajs
tar

tarantulajs

分布式爬虫

by tean

0.2.5 (see all)License:GPLTypeScript:Not Found
npm i tarantulajs
Readme

Tarantula

Tarantula是一个分布式爬虫框架。由中心服务器和节点服务器构成。
官方网站: http://tarantula.tech

环境依赖

  • Node >= 8.9.1
  • Mysql or Mariadb
  • Python2
  • Visual Studio >= 2012 (windows only)

安装

npm i -g tarantulajs --unsafe-perm

创建工程

tarantula dev --create YOUR_PROJECT_NAME

编写代码

vi YOUR_PROJECT_NAME/main.js

测试代码

tarantula dev --test <scriptPath>

使用官方节点服务器工作

发布代码到官方服务器

tarantula publish --name YOUR_PROJECT_NAME --description YOUR_DESCRIPTION --target YOUR_PROJECT_DIRECTORY

私有化部署

初始化配置文件

tarantula server --init

database.json 设置mysql数据库信息
tarantula-config.json 项目配置

启动服务器

tarantula server --start --db-config <path> --config <path> [-p [port]]

客户端

tarantula dispatch -s http://YOUR_SERVER:PORT --token <string>

客户端docker部署

curl https://raw.githubusercontent.com/hummer-studio/tarantula/master/Dockerfile.dispatch | docker build -t tarantula-dispatch -
docker run -d --restart=always -e TARANTULA_SERVER=YOUR_SERVER -e TARANTULA_TOKEN=YOUR_TOKEN tarantula-dispatch

发布代码到私有服务器

tarantula publish -s [https://]YOUR_SERVER[:PORT] --name YOUR_PROJECT_NAME --description YOUR_DESCRIPTION --target YOUR_PROJECT_DIRECTORY

示例代码

爬虫脚本配置解析

爬虫脚本配置解析

常见问题

全局模式安装失败

可以尝试普通安装模式

mkdir workdir
cd workdir
npm i tarantulajs
./node_modules/.bin/tarantula --help

Downloads/wk

1

GitHub Stars

29

LAST COMMIT

4yrs ago

MAINTAINERS

1

CONTRIBUTORS

2

OPEN ISSUES

0

OPEN PRs

0
VersionTagPublished
0.2.5
latest
5yrs ago
No alternatives found
No tutorials found
Add a tutorial