-
附带爬虫工具抓取豆瓣电影数据并进行数据处理、数据分析及可视化的大数据分析项目
资源介绍
平台部分主要是hadoop分布式系统,基于该系统融合了组件Spark,Hbase,Hive,Sqoop,Mahout等。继而进行相关的数据分析
该项目主要分为以下几部分:
1:数据采集
主要是基于豆瓣电影的数据,进行分析,所以首先要爬取相关的电影数据,对应的源代码在DouBan_Spider目录下,主要是采用Python + BeautifulSoup + urllib进行数据采集
2:ETL预处理
3:数据分析
4:可视化
代码封装完好,
适用于对作影视感情分析,影评分析,电影类型分析,推荐系统的建立
- 上一篇: Druid实践介绍.pdf
- 下一篇: druid数据分析原理与实践