-
基于Python开发的ZhihuSpider是一款知乎用户公开信息爬虫,具备抓取用户关注关系的功能,并支持使用代理和多线程技术
资源介绍
Python知乎用户信息爬虫
特色
除了爬取用户信息外,还可以选择爬取用户之间的关注关系
使用多线程爬取,并可以自行配置使用的线程数
使用Redis作为任务价值
使用高匿代理IP进行数据的爬取,并重新后会重新分配新的可用代理,避免重新访问导致本机IP被封
可以启用邮件定时通知功能
运行要求
Python版本:3.0以上
数据库:MySQL,Redis
使用到的库
项目中使用到的Python第三方库如下:
第三方库:
请求-一个非常好用的请求库, //docs.python-requests.org/en/master/
pymysql——python与MySQL连接,
BeautifulSoup——简单但是强大的网页文档解析库, //www.crummy.com/software/BeautifulSoup/bs4/doc/
Redis-py——Redis Python客户端,
写在前面
用户令牌
用户令牌是注册知乎账号时设置的一个非中文昵称,通过其可唯一确定某一个用户。同时由于URL中也是通过该令牌区分不同用户的页面,所以我们可以很容易的利用令牌来爬取
URL分析
爬虫中
- 上一篇: 数据库银行转账系统python实现.rar
- 下一篇: Socket-Lab:套接字编程实验室