我们身处于大数据的一个起步时代，作为一个码农，掌握大数据计算平台的使用还是必须的。Apache Spark作为近年来最流行的大数据开源项目，可以说是占据了大小互联网的生产环境，是一个“快如闪电的集群计算”工具。关于Spark的介绍我也不多说啦，可以看看官网Spark。这里需要说明的是，博主并没有阅读过Spark的源码，对Spark较多的是停留在应用层面。博主对Spark的应用主要是在公司的大小日常项目中，目前接触过的最大数据量的项目为联通集团的数据挖掘项目。
博客的内容很多是给自己回顾所涉及的点，不是很完善。所述之处如有错误，还请及时指出。

集群样貌

我们看一下spark任务提交集群后，各节点的部署图

图中可以看到：

spark集群分为Master节点和Worker节点；
Master节点有Master进程，负责管理全部的Worker节点；
Worker节点有Worker进程，管理本node下的executers并负责与Master节点通信；
每个Worker上有多个ExecutorBackend进程，每个对应一个Executor对象，每个对象有一个线程池，线程池里的一个线程负责一个Task，一个Task是具体执行任务的一个工作单元，由用户在提交任务的时候设置资源参数executor.core定义；
Driver是具体跑用户自己写的Spark程序进程，如果是YARN集群部署，那么Driver就会被调度到Worker上运行；

RDD

rdd是spark任务中用到最多的数据结构，rdd的全程是Resilient Distributed Datasets，是一个容错的、并行的数据结构，可以让用户显式地将数据存储到磁盘和内存中，是将数据分布式得存储在各台机器中，并能控制数据的分区。那么，我们可以对rdd做那些操作呢？可以分为两类

transform

官方解释：Return a MappedRDD[U] by applying function f to each element.就是对每个数据进行改造和转换，从一个rdd生成一个新的rdd.
spark中，针对rdd的transform操作有：

map

filter

sample

groupByKey
…
等等

action

官方解释：有一个rdd得到一个值，比如说统计rdd里的数据总数。spark中，针对rdd的action操作有：

count

collect

saveXXXX
… 等等

DAG

DAG是spark中的一个重要概念。我们在用spark进行对源数据进行处理并最后得到我们想要的结果的过程，实际上是一个若干tranform的变换和合并的组合，可以看成一个流程图，这个流程图被spark抽象为DAG，即Directed Acyclic Graph。在生产集群上，我们可以通过SparkUI看到每个运行任务的DAG图.

Job

job的官方定义：A parallel computation consisting of multiple tasks that
gets spawned in response to a Spark action (e.g. save, collect); you’ll see this term used in the driver’s logs.
一个action操作对应一个job，spark程序中，只有触发了action操作后，整个dag才能建立起来，如果只是一堆transform操作而没有action操作，那么spark是不会有任何数据操作的。以数字统计为例，job的逻辑执行图可如下所示：

这个job通过count操作触发。

Stage

stage的官方定义：Each job gets divided into smaller sets of tasks called stages that depend on each other (similar to the map and reduce stages in MapReduce); you’ll see this term used in the driver’s logs.

一个job可以拆分成若干个stage，每个stage执行一些计算，产生一些中间结果。它们的目的是最终生成这个Job的计算结果。而每个Stage是一个task set，包含若干个task。Task是Spark中最小的工作单元，在一个executor上完成一个特定的事情。那么如何划分stage呢？这里我们要了解一下spark中的shuffle。

shuffle

shuffle是MapReduce框架中的一个特定的phase，介于Map phase和Reduce phase之间，当Map的输出结果要被Reduce使用时，输出结果需要按key哈希，并且分发到每一个Reducer上去，这个过程就是shuffle。由于shuffle涉及到了磁盘的读写和网络的传输，因此shuffle性能的高低直接影响到了整个程序的运行效率。

rdd transform依赖关系

rdd在transform操作后，前面涉及到的rdd成为parent，我们可以从下图中看到前后的依赖关系：

前三个是完全依赖，RDD x 中的 partition 与 parent RDD 中的 partition/partitions 完全相关。最后一个是部分依赖，RDD x 中的 partition 只与 parent RDD 中的 partition 一部分数据相关，另一部分数据与 RDD x 中的其他 partition 相关。完全依赖被称为 NarrowDependency，部分依赖被称为 ShuffleDependency。最后一个会出发shuffle。
回到刚刚的问题，如何划分stage呢？从后往前推算，遇到ShuffleDependency就断开，遇到NarrowDependency就将其加入该stage。每个stage里的task数目由该stage最后一个rdd中的partition个数决定。

参考资料：https://spark-internals.books.yourtion.com/index.html

spark基础