-
重点网络爬虫基于Playwright、RMQ、Kafka和Flink的实现
资源介绍
网络爬虫
该存储库包含Otus Data Engineer课程的最终工作的源代码。 该项目是专注于Web的爬网程序,可递归地爬网网站。 它包含3个部分:
提取程序是一个nodejs应用程序。 它从frontier RMQ队列中读取URL,在选定的浏览器中打开页面,并将其内容存储在htmls kafka主题(HTML)和screenshots minio bucket(PNG)中。
提取程序是flink作业。 它从htmls kafka主题中读取HTML文档,提取内部链接并将其推入frontier RMQ队列。 该服务还实现了使用MapState消除重复URL(DUE)的逻辑。
运行程序是运行爬网的python脚本。
如何启动搜寻
docker-compose build ;
docker-compose up -d (等待〜20秒);
docker-compose run -v
- 上一篇: pySpark数据分析课程课件源码
- 下一篇: 基于Spark电影推荐系统-数据表SQL