Spark 发表于 2018-12-29 更新于 2020-06-08 分类于 b计算机基础/g_分布式/大数据/李智慧 阅读次数: 本文字数: 230 阅读时长 ≈ 1 分钟 2018年12月29日 下午3:48Hadoop和spark对比 RDD弹性数据集(Resilient Distributed Datasets) spark更加高效的原因:(数据角度) spark的作业管理:(时间任务角度)注:这个图中没有显示RDD的位置,原因是RDD代表的是数据角度,而上面图是从时间任务的角度去划分,它们是不同的角度。如果要从数据的角度去分析,那么:注:也就是说:一个数据分片=一个计算任务task spark的执行过程:(从硬件+线程的角度去理解)