-
力扣中国题库 - leetcode_spider: 使用多线程按标签爬取所有题目
资源介绍
leetcode题库
你需要修改的地方:
dir.MakeDir.py中的path,表示你希望题目存储的地址
(可选)如果你是
会员用户可在promblem.Problem_Dtail中的ck里填入你的cookie以爬取力扣会员专享题。
你需要了解:
爬取的题目形式为html,包含html标签方便进行渲染。当然如果你觉得不妥可以自行修改(problem.Problem_detal中)
由于发现leetcode没有反爬,本项目并未使用代理请求。
项目介绍
main.py项目入口
dir.Makedir.py创建存放对应标签题目的所有文件夹
label.Label_Dic.py获取力扣题库中所有题目类型标签与对应的英文名(dic)
label.Label_List.py获取所有标签名(List)
problem.Problem_Url_Queue通过传参(标签英文名字)获取对应标签里的所有题目
problem.Problem_detal.py请求获取题目详情并以txt文件形式存储题目
leetcode爬取结果示例图