-
Scrapy-cluster项目借助Redis和Kafka构建了一个可根据需求进行分布式抓取的集群
资源介绍
杂乱的集群
该Scrapy项目使用Redis和Kafka创建按需分布式抓取集群。
目标是在许多等待的蜘蛛实例之间分发种子URL,这些蜘蛛实例的请求通过Redis进行协调。 由于边界扩展或深度遍历而导致的任何其他爬网也会在群集中的所有工作线程之间分配。
系统的输入是一组Kafka主题,输出是一组Kafka主题。 原始HTML和资产将以交互方式进行爬网,爬网,然后输出到日志。 为了便于本地开发,您也可以禁用Kafka部分并完全通过Redis使用Spider,尽管由于爬网请求的序列化,所以不建议这样做。
依存关系
请参阅每个子项目中的requirements.txt以了解Pip包的依赖性。
运行集群所需的其他重要组件
Python 2.7或3.6: :
Redis: :
动物园管理员: :
卡夫卡: :
核心概念
该项目试图将Scrapy和大型分布式爬网的一系列新概念
- 上一篇: 三种方式的spark on kubernetes对比
- 下一篇: kafka读取写入数据