-
Spark实战.docx下载
资源介绍
1. Spark是特性
高可伸缩性
高容错
于内存计算
2. Spark的生态体系(BDAS,中文:伯利克分析栈)
MapReduce属于Hadoop生态体系之一,Spark则属于BDAS生态体系之一
Hadoop包含了MapReduce、HDFS、HBase、Hive、Zookeeper、Pig、Sqoop等
BDAS包含了Spark、Shark(相当于Hive)、BlinkDB、Spark Streaming(消息实时处理框架,类似Storm)等等
3. Spark与MapReduce
优势:
MapReduce通常将中间结果放到HDFS上,Spark是基于内存并行大数据框架,中间结果存放到内存,对于迭代数据Spark效率高。
MapReduce总是消耗大量时间排序,而有些场景不需要排序,Spark可以避免不必要的排序所带来的开销
Spark是一张有向无环图(从一个点出发最终无法回到该点的一个拓扑),并对其进行优化。
4. Spark支持的API
Scala、Python、Java等
5. 运行模式
Local (用于测试、开发)
Standlone (独立集群模式)
Spark on Yarn (Spark在Yarn上)
Spark on Mesos (Spark在Mesos)
- 上一篇: mysql-5.6.26-win32 软件包
- 下一篇: Linux常用软件包.zip