-
20180616,lianjiaspider抓取了链家网上在售的二手房小区及其成交记录
资源介绍
挺用心的链家爬虫(速度更快 数据更全 评分更有意义)
网上抓取链家数据的爬虫很多 但有几个问题:
1、 在售二手房爬取的数据不全(实际在售二手房房源大概4万套),但由于每页展示30条,
但总共展示100页,也就是说爬取的仅仅是3000条在售二手房数据;
2、 没有各个小区的物业信息,物业费用能React一个小区的中高低档;
3、 没有已成交记录的信息,并且近期链家对成交价格隐藏;
4、 抓取后没有数据处理;
这个网页抓取的脚本完美解决了以上问题;
同时,技术上使用了多进程+多协程的方法,提高抓取效率;
最后对每一个在售二手房进行评分:
根据是否有窗户、窗户是否是落地、窗户朝向、得房率(套内面价/建筑面积)、得房单价和装修维度搭建评分模型,给出一个百分制的分数;
几个使用上的简要说明:
1、xmind_logic.png 是这个抓取脚本设计的思维导图,主要介绍了该方法的设计思路以
- 上一篇: 最新完美 一机一码 EXE文件, 视频文件加密 ,注册机生成
- 下一篇: JS进阶.xmind