Spark2.4有哪些新功能【尝鲜】
问题导读1.Spark有哪些模块发生改变?
2.Barrier Execution是什么?
3.将Spark数据与AI整合的是什么项目?
关注最新经典文章,欢迎关注公众号
http://www.aboutyun.com/data/attachment/forum/201406/15/084659qcxzzg8n59b6zejp.jpg
Spark开发者公布了Spark2.4新增功能,多模块都做了改变,包括:
1.Barrier Execution
2.Spark on Kubernetes
3.Scala 2.12
4.PySpark改进
5.Structured Streaming
6.Image数据源
7.Native Avro支持
8.内置源代码改进
9.各种SQL功能
这里重点介绍Barrier Execution、Spark图像数据源、Spark On K8s
Barrier Execution
补充资料,熟悉可跳过:
对于Barrier Execution可能了解的不多,我们看下面下面链接内容
https://jira.apache.org/jira/browse/SPARK-24374
这里翻译如下:
这里的建议是为Apache Spark添加一个新的调度模型,以便用户可以嵌入分布式DL(深度学习)训练作为Spark stage,以简化分布式训练工作流程。 例如,Horovod使用MPI实现all-reduce以加速分布式TensorFlow训练。 Spark计算模型不同于MapReduce。 在Spark中,阶段中的任务不依赖于同一阶段中的任何其他任务,因此可以独立调度。 在MPI中,所有Worker同时开始并传递消息。 为了在Spark中嵌入这个workload,我们需要引入一个新的调度模型,定名为“barrier scheduling”,它同时启动任务并为用户提供足够的信息和工具来嵌入分布式DL训练。 Spark还可以提供额外的容错层,以防中间某些任务失败,Spark会中止所有任务并重新启动stage。
上面我们明白了Barrier Execution。
Hydrogen产生
Spark是第一个统一分析引擎,结合了数据和AI技术
为什么这么说那?如下图,在Spark和AI之间似乎缺少了将二者整合的系统技术
于是项目Hydrogen产生
项目Hydrogen: Spark + AI
Spark调度嵌入Spark分布式DL(深度学习)job作为Spark stage以简化分布式训练工作流程:
1.在一个stage同时启动任务
2.为用户提供足够的信息和工具来嵌入分布式DL训练
3.引入新的容错机制(任何任务时),在中间失败,Spark将中止所有任务并重新启动stage
Hydrogen相关视频下载:
链接: https://pan.baidu.com/s/1IYAi4LifIhRpFBG0KVtHCw 提取码: efbn
Structured Streaming
1.在Append和Completeoutput模式下支持流的LIMIT运算符。
2.从流聚合中的值中移除冗余key数据
3.当输入流中没有数据时,使用有状态操作(mapGroupsWithState, stream-stream join, streaming aggregation, streaming dropDuplicates)更快地生成输出结果和/或状态清理。
4.支持在查询中有多个输入流时选择最小或最大watermark。
Spark图像数据源
1.分区发现
2.从目录递归加载
3.dropImageFailures路径通配符匹配
4.路径通配符匹配
Spark On K8s
1.支持PySpark
2.支持Client-mode
3.支持安装K8S volume
更多功能参考pdf:
更多下载:
链接: https://pan.baidu.com/s/1hePXdd2pcDpga0vdD2-gxQ 提取码: bpke
Spark2.4有哪些新功能~~~~ Spark2.4有哪些新功能, 不错 感谢分享 Spark2.4什么时候出
页:
[1]