登录 注册
当前位置:主页 > 资源下载 > 21 > Spark SQL 在字节跳动的优化实践-郭俊.pdf下载

Spark SQL 在字节跳动的优化实践-郭俊.pdf下载

  • 更新:2024-08-20 16:34:56
  • 大小:47.95MB
  • 推荐:★★★★★
  • 来源:网友上传分享
  • 类别:spark - 大数据
  • 格式:PDF

资源介绍

Spark 在字节跳动内部扮演着重要角色。在数据仓库领域,Spark SQL 正在逐渐取代 Hive 成为主要的 ETL 计算引擎,另外它还是字节跳动内部重要的 ad-hoc 查询引擎。目前 Spark 每天处理百万亿级数据,单任务 Shuffle 数据量可超过 200TB。同时 Spark 与其它系统混合部署,因此性能与稳定性都是需要重点解决的问题。本次分享将会基于基础架构团队过往的工作成果,介绍字节跳动在提升基于 Spark SQL 的 ETL 稳定性以及优化 ad-hoc 查询的性能方面的实践。