-
Spark 2.0.2 Spark 2.2 中文文档 本资源为网页,不是PDF下载
资源介绍
本资源为网页,不是PDF
Apache Spark 2.0.2 中文文档
Spark 概述
编程指南
快速入门
Spark 编程指南
概述
Spark 依赖
Spark 的初始化
Shell 的使用
弹性分布式数据集(RDDS)
并行集合
外部数据集
RDD 操作
RDD 持久化
共享变量
Broadcast Variables (广播变量)
Accumulators (累加器)
部署应用到集群中
使用 Java / Scala 运行 spark Jobs
单元测试
Spark 1.0 版本前的应用程序迁移
下一步
Spark Streaming
Spark Streaming 概述
一个简单的示例
基本概念
依赖
初始化 StreamingContext
Discretized Streams(DStreams)(离散化流)
Input DStreams 和 Receivers
DStreams 上的 Transformations(转换)
DStreams 上的输出操作
DataFrame 和 SQL 操作
MLlib 操作
缓存 / 持久化
CheckPointing
累加器和广播变量
应用程序部署
监控应用程序
性能
降低批处理的时间
设置合理的批处理间隔
内存
容错语义
迁移指南(从 0.9.1 或者更低版本至 1.x 版本)
快速跳转
Kafka 集成指南
DataFrames,Datasets 和 SQL
Spark SQL 概述
SQL
Datasets 和 DataFrames
Spark SQL 入门指南
起始点 : SparkSession
创建 DataFrame
无类型 Dataset 操作(aka DataFrame 操作)
以编程的方式运行 SQL 查询
创建 Dataset
RDD 的互操作性
数据源
通用的 Load/Save 函数
Parquet文件
JSON Datasets
Hive 表
JDBC 连接其它数据库
故障排除
性能调优
缓存数据到内存
其它配置选项
分布式 SQL引擎
运行 Thrift JDBC/ODBC
运行 Spark SQL CLI
迁移指南
从 Spark SQL 1.6 升级到 2.0
从 Spark SQL 1.5 升级到 1.6
从 Spark SQL 1.4 升级到 1.5
从 Spark SQL 1.3 升级到 1.4
从 Spark SQL 1.0~1.2 升级到 1.3
兼容 Apache Hive
参考
数据类型
NaN 语义
Structured Streaming
MLlib(机器学习)
机器学习库(MLlib)指南
ML Pipelines(ML管道)
Extracting, transforming and selecting features(特征的提取,转换和选择)
Classification and regression(分类和回归)
Clustering(聚类)
Collaborative Filtering(协同过滤)
ML Tuning: model selection and hyperparameter tuning(ML调优:模型选择和超参数调整)
Advanced topics(高级主题)
MLlib:基于RDD的API
Data Types - RDD-based API(数据类型)
Basic Statistics - RDD-based API(基本统计)
Classification and Regression - RDD-based API(分类和回归)
Collaborative Filtering - RDD-based API(协同过滤)
Clustering - RDD-based API(聚类 - 基于RDD的API)
Dimensionality Reduction - RDD-based API(降维)
Feature Extraction and Transformation - RDD-based API(特征的提取和转换)
Frequent Pattern Mining - RDD-based API(频繁模式挖掘)
Evaluation metrics - RDD-based API(评估指标)
PMML model export - RDD-based API(PMML模型导出)
Optimization - RDD-based API(最)
GraphX(图形处理)
Spark R
部署
集群模式概述
提交应用
Spark Standalone 模式
Spark on Mesos
Spark on YARN
Spark on YARN 上运行
准备
Spark on YARN 配置
调试应用
Spark 属性
重要提示
在一个安全的集群中运行
用 Apache Oozie 来运行应用程序
Kerberos 故障排查
Spark 配置
Spark 监控
指南
作业调度
Spark 安全
硬件配置
构建 Spark