用户组:游客
这里的建议是为Apache Spark添加一个新的调度模型,以便用户可以嵌入分布式DL(深度学习)训练作为Spark stage,以简化分布式训练工作流程。 例如,Horovod使用MPI实现all-reduce以加速分布式TensorFlow训练。 Spark计算模型不同于MapReduce。 在Spark中,阶段中的任务不依赖于同一阶段中的任何其他任务,因此可以独立调度。 在MPI中,所有Worker同时开始并传递消息。 为了在Spark中嵌入这个workload,我们需要引入一个新的调度模型,定名为“barrier scheduling”,它同时启动任务并为用户提供足够的信息和工具来嵌入分布式DL训练。 Spark还可以提供额外的容错层,以防中间某些任务失败,Spark会中止所有任务并重新启动stage。
使用道具 举报
本版积分规则 发表回复 回帖后跳转到最后一页
经常参与各类话题的讨论,发帖内容较有主见
经常帮助其他会员答疑
活跃且尽责职守的版主
为论坛做出突出贡献的会员
超级版主
2332
主题
3342
帖子
1972
粉丝
查看 »