当前位置:主页 > 资源下载 > 34 > Spark快速数据处理 PDF电子书下载带书签目录完整版

Spark快速数据处理 PDF电子书下载带书签目录完整版

更新：2024-06-30 09:57:56
大小：167B
推荐：★★★★★
来源：网友上传分享
类别：spark - 大数据
格式：RAR

反馈 / 投诉

资源介绍

本章将详细介绍搭建Spark的常用方法。Spark的单机版便于测试，同时本章也会提到通过SSH用Spark的内置部署脚本搭建Spark集群，使用Mesos、Yarn或者Chef来部署Spark。对于Spark在云环境中的部署，本章将介绍在EC2（基本环境和EC2MR）上的部署。如果你的机器或者集群中已经部署了Spark，可以跳过本章直接开始使用Spark编程。不管如何部署Spark，首先得从获得Spark的一个版本，截止到写本书时，Spark的最新版本为0.7版。对于熟悉github的程序员，则可以从git://github.com/mesos/spark.git直接复制Spark项目。Spark提供基本源码压缩包，同时也提供已经编译好的压缩包。为了和Hadoop分布式文件系统(HDFS)交互，需要在编译源码前设定相应的集群中所使用的Hadoop版本。对于0.7版本的Spark，已经编译好的压缩包依赖的是1.0.4版本的Hadoop。如果想更深入地学习Spark，推荐自编译基本源码，因为这样可以灵活地选择HDFS的版本，如果想对Spark源码有所贡献，比如提交补丁，自己编译源码是必须的。你需要安装合适版本的Scala和与之对应的JDK版本。对于Spark的0.7.1版本，需要Scala 2.9.2或者更高的Scala 2.9版本（如2.9.3版）。在写本书时，Linux发行版Ubuntu的LTS版本已经有Scala2.9.1版，除此之外，最近的稳定版本已经有2.9.2版。Fedora18已经有2.9.2版。软件包的更新信息可以查看到。Scala官网上的最新版在。选择Spark支持的Scala版本十分重要，Spark对Scala的版本很敏感。

相关推荐

Spark快速数据处理 PDF电子书下载带书签目录完整版

资源介绍

热门标签

资源声明

Spark快速数据处理 PDF电子书下载 带书签目录 完整版

资源介绍

热门标签

资源声明

Spark快速数据处理 PDF电子书下载带书签目录完整版