登录 注册
当前位置:主页 > 资源下载 > 10 > JavaScript 的水熊宝宝 / neocrawler

JavaScript 的水熊宝宝 / neocrawler

  • 更新:2024-10-04 14:42:14
  • 大小:40.92MB
  • 推荐:★★★★★
  • 来源:网友上传分享
  • 类别:其它 - 网络技术
  • 格式:ZIP

资源介绍

http://git.oschina.net/dreamidea/neocrawler 牛抓-neocrawler nodejs 的爬虫系统。 特点: 支持web界面方式的摘取规则配置(css selector & regex); 包含*面的浏览器引擎(phantomjs),支持js产生内容的抓取; 用http代理路由的方式防止抓取并发量过大的情况下被对方屏蔽; nodejs none-block 异步环境下的抓取性能比较高; *调度器负责网址的调度(同一时间片内一定数量的抓取任务中根据网站的权重来决定派发任务量; 支持多种抓取实例并存,定制摘取引擎和存储方式。