阿飞 发表于 2018-11-10 09:02:03

Spark2.4.0发布

Spark2.4.0 今天官网发布,这是一个大好消息。Spark 2.4.0是2.x的第五个发型版本。官方发布消息链接如下:http://spark.apache.org/releases/spark-release-2-4-0.html此版本继续关注可用性,稳定性和优化,浪尖在这里摘要翻译一下,主要的关注点:SparkCore 和 SQL
[*]增加了Barrier ExecutionMode,可以更好的和深度学习的框架整合
[*]同时引入了 30+ 内置函数和 higher-order函数可以处理更复杂的数据类型
[*]改善了与k8s的整合

[*]支持scala 2.12
[*]内置支持了Avro格式数据源,这个感情好,后面浪尖给出测试案例,以后有pb的支持那就更好了。

性能和稳定性这个优化比较多,值得关注
[*]Connector优化
这个优化主要是Parquet,orc,csv及avro等的优化升级MLlib
[*]MLlib支持了图像格式的数据源
StructuredStreaming
[*]使用foreachBatch(支持Python,Scala和Java)将每个微批的输出行暴露为DataFrame。
[*]为Python API 增加了foreach 和 ForeachWriter
[*]支持使用“kafka.isolation.level”读取使用事务的生产者生产到kafka topic的已提交消息。
Spark SQL的升级页面里也有对Spark 2.4 在 SQL 方面的调整优化,大家有兴趣也可以看看,有没有自己关注的bug被修复了。http://spark.apache.org/docs/latest/sql-migration-guide-upgrade.html#upgrading-from-spark-sql-23-to-24细心的同学注意到了,Spark Streaming已经稳定到不用更新了,,,还是说Spark Streaming已经凉凉了。
原文链接:https://mp.weixin.qq.com/s/wZllSPNr7z6IvGQrXmFjmg作者:浪尖

jiewuzhe02 发表于 2018-11-10 14:10:47

分享分享

jiangzi 发表于 2018-11-11 15:22:36

Spark 2.4.0是2.x的第五个发型版本,good

美丽天空 发表于 2018-11-12 13:28:00

来学习了
页: [1]
查看完整版本: Spark2.4.0发布