Spark 2.2.x 中文文档
latest
快速入门
RDD 编程指南
Spark SQL, DataFrame 和 Dataset 编程指南
Structured Streaming编程指南
Spark Streaming 编程指南
机器学习库(MLib)编程指南
集群模式概述
提交 Spark 应用程序
Spark 独立模式
在Mesos上运行Spark
在 YARN 上运行 Spark
Spark 配置
监控和工具
Spark 性能调优
Spark 任务调度
Spark安全
硬件配置
Spark 2.2.x 中文文档
Docs
»
Spark 2.2.x 中文官方参考文档
Edit on GitHub
Spark 2.2.x 中文官方参考文档
¶
编程指南
¶
快速入门
使用 Spark Shell 进行交互式分析
基础知识
更多 Dataset 算子
缓存
自包含的(self-contained)应用程序
下一步
RDD 编程指南
概述
链接 Spark
初始化 Spark
使用 Shell
弹性分布式数据集(RDD)
并行集合
外部数据集
RDD 算子
RDD持久化
共享变量
广播变量
累加器
部署到集群
从Java/Scala中启动Spark作业
单元测试
下一步
Spark SQL, DataFrame 和 Dataset 编程指南
概述
SQL
Dataset 和 DataFrame
入门
入口: SparkSession
创建 DataFrame
无类型的 Dataset 操作 (亦即 DataFrame 操作)
Running SQL Queries Programmatically
Global Temporary View
创建 Dataset
与 RDD 互操作
聚合
数据源
Generic Load/Save Functions
Parquet 文件
JSON Datasets
Hive Tables
Specifying storage format for Hive tables
与不同版本的Hive Metastore交互
JDBC To Other Databases
Troubleshooting
性能调优
缓存数据到内存中
其它配置选项
分布式 SQL 引擎
运行 Thrift JDBC/ODBC 服务器
运行 Spark SQL CLI
迁移指南
Spark SQL 从 2.1 版本升级到2.2 版本
Spark SQL 从 2.0 版本升级到 2.1 版本
Spark SQL 从 1.6 版本升级到 2.0 版本
Spark SQL 从 1.5 版本升级到 1.6 版本
Spark SQL 从 1.4 版本升级到 1.5 版本
Spark SQL 从 1.3 版本升级到 1.4 版本
Spark SQL 从 1.0-1.2 版本升级到 1.3 版本
兼容Apache Hive
参考
数据类型
NaN 语义
Structured Streaming编程指南
Spark Streaming 编程指南
概述
一个小例子
基本概念
链接依赖项
初始化 StreamingContext
离散数据流(DStreams)
输入DStream和接收器
DStream支持的transformation算子
DStream输出算子
DataFrame 和 SQL 算子
MLlib 算子
缓存/持久化
检查点
累加器, 广播变量以及检查点
部署应用程序
应用程序监控
性能调优
减少批次处理时间
设置合适的批次间隔
内存调优
容错语义
背景
定义
基础语义
接收数据语义
下一步
机器学习库(MLib)编程指南
部署
¶
集群模式概述
组件
集群管理器类型
提交 Spark 应用
监控
作业调度
术语表
提交 Spark 应用程序
应用程序依赖打包
使用 spark-submit 启动应用程序
Master URLs
从文件中加载配置
高级依赖管理
更多信息
Spark 独立模式
Spark集群独立安装
手动启动集群
集群启动脚本
连接应用程序到集群
启动Spark应用
资源调度
监控和日志
和Hadoop同时运行
网络安全端口配置
高可用性
基于Zookeeper的热备master
基于本地文件系统的单点恢复
在Mesos上运行Spark
在 YARN 上运行 Spark
在YARN上启动
增加其他JAR包
准备
配置
调试应用程序
重要提示
在安全的集群中运行
配置外部的 Shuffle 服务
使用 Apache Oozie启动应用程序
Troubleshooting Kerberos
使用 Spark History Server 替代 Spark Web UI
更多
¶
Spark 配置
Spark属性
动态加载 Spark 属性
查看Spark属性
可用的属性
环境变量
日志配置
覆盖配置目录
继承Hadoop集群配置
监控和工具
Web界面
事后查看
环境变量
Spark 配置选项
REST API
API Versioning Policy
度量
高级工具
Spark 性能调优
数据序列化
内存调优
内存管理概述
确定内存消耗
调整数据结构
序列化的 RDD 存储
垃圾回收调优
其它考虑事项
并行度
Reduce 任务的内存使用
广播超大变量
数据本地化
小结
Spark 任务调度
概览
Spark应用之间的资源调度
动态资源分配
Spark应用内部的资源调度
公平调度资源池
资源池默认行为
配置资源池属性
Spark安全
Web UI
认证
事件日志
加密
SSL配置
YARN模式
独立模式
准备key-stores
配置SASL加密
配置网络安全端口
仅独立部署适用
所有集群管理器适用
硬件配置
存储系统
本地磁盘
内存
网络
CPU Cores
Indices and tables
¶
索引
模块索引
搜索页面