-
Packt发行的PySpark-Cookbook,即PySpark食谱
资源介绍
PySpark食谱
这是Packt发布的的代码存储库。
超过60种使用Apache Spark和Python实施大数据处理和分析的配方
这本书是关于什么的?
Apache Spark是用于高效集群计算的开放源代码框架,具有用于数据并行性和容错性的强大接口。 PySpark Cookbook提供了有效且省时的食谱,以利用Python的功能并将其用于Spark生态系统。
本书涵盖以下激动人心的功能:
在虚拟环境中配置PySpark的本地实例
在本地和多节点环境中安装和配置Jupyter
使用pyspark.sql从JSON和字典创建DataFrames
探索ML模块中可用的回归和聚类模型
使用DataFrames转换用于建模的数据
如果您觉得这本书适合您,请立即获取!
说明和导航
所有代码都组织在文件夹中。 例如,Chapter02。
该代码将如下所示:
if [ "${_