计算调度
计算调度
每个 Job 抽象成一个 DAG(有向无环图),图中的节点有前后依赖关系。随着阿里大数据业务的增长和新计算模型的提出,DAG 框架需要更好的动态性,以更灵活的适应数据和资源的变化。此外,计算调度和 Shuffle 系统需要对不同规模都给出最优的调度效果和执行性能。
业界各个分布式系统(包括 SPARK, FLINK, HIVE, SCOPE, TENSORFLOW)都包含 DAG 执行框架,这些执行框架的本源都可以归结于 Dryad 提出的 DAG 模型。目前业内的 DAG 执行框架都依赖于特定的分布式系统,要么缺少清晰的点,边,图的定义,要么缺少动态执行调整能力,很难用一套 DAG 执行框架来满足大数据所有计算场景的需要。