Spark-RDD概述
# 什么是 RDD RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是 Spark 中最基本的数据(计算)抽象。代码中是一个抽象类,它代表一个不可变、可分区、里面的元素可并行计算的集合。 # RDD 的属性 一组分区(Partition),即数据集的基本组成单位 一个计算每个分区的函数 RDD 之间的依赖关系 一个 Partitioner,即 RDD 的分片函数 一个列表,存储存取每个 Partition 的优先位置(preferred location) # RDD 的特点 RDD 表示只读的分区的数据集,对 RDD 进行改动,只能通过 RDD...
more...