Spark社区的圣诞礼物 : Spark Package

问题导读

1.什么是Spark Package？
2.本文spark Package各自的作用是什么？

假如这个库能持续的发展下去，从用户的角度来说肯定是非常欢迎的。打个不恰当的比喻，这玩意儿类似于Spark的“App Store”，越丰富越好。不过目前这个库有不少只是列出来，并没有release，但是我相信很快就会release出来。

其中有几个库非常值得注意，甚至有一些在Spark界已经非常出名了，我列出几个大家需要关注的。

· dibbhatt/kafka-spark-consumer

目前Spark Streaming的Kafka connector是基于Kafka high-level API的，导致的直接后果是无法控制offset来replay数据。所以一个基于low-level的connector就非常有必要了。这个包就能更好的控制Kafka的offset，同时能更好的处理错误。对kafka比较了解的人应该知道，这里的receiver是会把最新的offset存在ZK里的。详情见：http://spark-packages.org/package/5

· spark-jobserver/spark-jobserver

这个玩意儿其实我很早很早以前就在国内宣传过了，让我比较高兴的是，有几家大型互联网公司(真的算比较大)已经在采用, 它提供了RESTful API来提交和管理Spark任务。JobServer有不少有意思的功能，譬如说能预先建立SparkContext，并能在一个独立的Context中方便的共享RDD。详情见：http://spark-packages.org/package/10 github:https://github.com/spark-jobserv ... graphs/contributors 据我所知，使用JobServer的各家几乎都做了不少改动，不过最近大家(包括我)有打算直接切换到最新的开源版本了。

·mengxr/spark-als

Spark MLlib的lead孟祥瑞提供的一个新的ALS实现，在使用原算法的前提下，采用新的实现使得效率有5倍左右的提升，这个我还是建议大家试一下，祥瑞不久前会北京时跟我提起过新的ALS的事，我本人还是比较期待，目前代码还未放出，他说是目前比较messy : ) 不过应该快了详情见 : http://spark-packages.org/package/1

其它值得注意的还有Spark性能测试工具databricks/spark-perf，时序数据处理killrweather/killrweather（名字很酷）