当前位置:主页 > 资源下载 > 19 > 重点网络爬虫基于Playwright、RMQ、Kafka和Flink的实现

重点网络爬虫基于Playwright、RMQ、Kafka和Flink的实现

更新：2024-08-20 20:19:32
大小：50KB
推荐：★★★★★
来源：网友上传分享
类别：其它 - 开发技术
格式：ZIP

反馈 / 投诉

资源介绍

网络爬虫该存储库包含Otus Data Engineer课程的最终工作的源代码。该项目是专注于Web的爬网程序，可递归地爬网网站。它包含3个部分：提取程序是一个nodejs应用程序。它从frontier RMQ队列中读取URL，在选定的浏览器中打开页面，并将其内容存储在htmls kafka主题（HTML）和screenshots minio bucket（PNG）中。提取程序是flink作业。它从htmls kafka主题中读取HTML文档，提取内部链接并将其推入frontier RMQ队列。该服务还实现了使用MapState消除重复URL（DUE）的逻辑。运行程序是运行爬网的python脚本。如何启动搜寻 docker-compose build ; docker-compose up -d （等待〜20秒）; docker-compose run -v

上一篇: pySpark数据分析课程课件源码
下一篇: 基于Spark电影推荐系统-数据表SQL

相关推荐

12-02 重点网络爬虫基于Playwright、RMQ、Kafka和Flink的实现

重点网络爬虫基于Playwright、RMQ、Kafka和Flink的实现

资源介绍

热门标签

资源声明