-
使用phantom编写的Creeper-getResource小脚本能够下载目标URL下“大部分”静态资源,但偶尔可能会抓取到空内容,同时涵盖spa页面
资源介绍
基于phantom,chrome headless的小爬虫脚本(一共是三个类型的脚本)
之前觉得爬虫是个挺牛逼的技术活,最近公司要弄个脚本测试一下目标URL,顺手抓一下资源,因为phantom是js工具,老板就让我这个菜鸡前端做了,那叫一个蛋疼啊,好在最后大体上弄了出来,反正是自己人瞎几把用用,在高深了我貌似就不太懂了
实现思路
由于是通用抓取脚本,所以会有文件丢失,抓取不全等问题,可以多抓几次,选取资源最多的一个,不过我觉得这些东西只会给之后的我看,hhhhhhh
思路一:
先用puppeteer(phantom、 chrome-remote-interface)进行资源url的抓取并写入文件
wget(或者node脚本进行)下载资源
写了个贼拉简单的shell(用来连接几个文件的执行) 省的好几步去操作node、phantom了
思路二(目前抓取最好):
在getlink-cli-wi
- 上一篇: PCtoLCD2002 (完美版的字模软件).rar
- 下一篇: PCtoLCD2002