当前位置:主页 > 资源下载 > 50 > Scrapy-cluster项目借助Redis和Kafka构建了一个可根据需求进行分布式抓取的集群

Scrapy-cluster项目借助Redis和Kafka构建了一个可根据需求进行分布式抓取的集群

更新：2024-08-20 20:23:56
大小：2.86MB
推荐：★★★★★
来源：网友上传分享
类别：其它 - 开发技术
格式：ZIP

反馈 / 投诉

资源介绍

杂乱的集群该Scrapy项目使用Redis和Kafka创建按需分布式抓取集群。目标是在许多等待的蜘蛛实例之间分发种子URL，这些蜘蛛实例的请求通过Redis进行协调。由于边界扩展或深度遍历而导致的任何其他爬网也会在群集中的所有工作线程之间分配。系统的输入是一组Kafka主题，输出是一组Kafka主题。原始HTML和资产将以交互方式进行爬网，爬网，然后输出到日志。为了便于本地开发，您也可以禁用Kafka部分并完全通过Redis使用Spider，尽管由于爬网请求的序列化，所以不建议这样做。依存关系请参阅每个子项目中的requirements.txt以了解Pip包的依赖性。运行集群所需的其他重要组件 Python 2.7或3.6：： Redis：：动物园管理员： : 卡夫卡： : 核心概念该项目试图将Scrapy和大型分布式爬网的一系列新概念

上一篇: 三种方式的spark on kubernetes对比
下一篇: kafka读取写入数据

相关推荐

12-02 Scrapy-cluster项目借助Redis和Kafka构建了一个可根据需求进行分布式抓取的集群

Scrapy-cluster项目借助Redis和Kafka构建了一个可根据需求进行分布式抓取的集群

资源介绍

热门标签

资源声明