0%

Spark

2018年12月29日 下午3:48
Hadoop和spark对比

RDD弹性数据集(Resilient Distributed Datasets)

spark更加高效的原因:(数据角度)



spark的作业管理:(时间任务角度)

注:这个图中没有显示RDD的位置,原因是RDD代表的是数据角度,而上面图是从时间任务的角度去划分,它们是不同的角度。
如果要从数据的角度去分析,那么:

注:也就是说:一个数据分片=一个计算任务task

spark的执行过程:(从硬件+线程的角度去理解)