登录 注册
当前位置:主页 > 资源下载 > 19 > 重点网络爬虫基于Playwright、RMQ、Kafka和Flink的实现

重点网络爬虫基于Playwright、RMQ、Kafka和Flink的实现

  • 更新:2024-08-20 20:19:32
  • 大小:50KB
  • 推荐:★★★★★
  • 来源:网友上传分享
  • 类别:其它 - 开发技术
  • 格式:ZIP

资源介绍

网络爬虫 该存储库包含Otus Data Engineer课程的最终工作的源代码。 该项目是专注于Web的爬网程序,可递归地爬网网站。 它包含3个部分: 提取程序是一个nodejs应用程序。 它从frontier RMQ队列中读取URL,在选定的浏览器中打开页面,并将其内容存储在htmls kafka主题(HTML)和screenshots minio bucket(PNG)中。 提取程序是flink作业。 它从htmls kafka主题中读取HTML文档,提取内部链接并将其推入frontier RMQ队列。 该服务还实现了使用MapState消除重复URL(DUE)的逻辑。 运行程序是运行爬网的python脚本。 如何启动搜寻 docker-compose build ; docker-compose up -d (等待〜20秒); docker-compose run -v