Spark

Spark 计算模式

Spark 支持两种RDD 操作：transformation 和action。transformation 操作会针对已有的RDD 创建一个新的RDD，而action 主要是对RDD 进行最后的操作，例如遍历、reduce、保存到文件等等，并可以将结果返回给Driver 程序。

transformation 具有lazy 特性，一个程序只有transformation 是不会执行的，只有触发了action 操作，才会触发所有的transformation 操作。

客户端Client 在本地编写Spark 程序，然后在本地将Spark 程序提交到Spark 集群中运行，Spark 从HDFS 中读出来的数据，会分布式存放在不同的Spark 节点上分布式处理。处理后的数据可能会被移动到别的Spark 节点中进行二次处理

所欲计算操作，都是针对多个计算节点上的数据，进行并行计算的

Spark 计算模型可以分为n 个阶段（MapReduce 只有两个阶段：map、reduce）

如果需要通过并行化创建RDD，需要针对程序中的集合，调用SparkContext 的parallelize 方法，将集合中的数据拷贝到集群上，形成一个分布式数据集合（RDD），相当于，集合中的一部分数据回到一个节点上，另一部分数据就到另一个节点上，然后使用并行的方式来操作这个分布式数据集合

调用parallelize 方法是有一个重要的参数是设置partition 的数量，Spark 默认会根据集群的情况来设置partition 的数量

调用SparkContext 的textFile() 方法，可以针对本地文件或者HDFS 文件来创建RDD

注意：