Spark社区的圣诞礼物 : Spark Package
问题导读
1.什么是Spark Package?
2.本文spark Package各自的作用是什么?
static/image/hrline/4.gif
假如这个库能持续的发展下去,从用户的角度来说肯定是非常欢迎的。打个不恰当的比喻,这玩意儿类似于Spark的“App Store”,越丰富越好。 不过目前这个库有不少只是列出来,并没有release,但是我相信很快就会release出来。其中有几个库非常值得注意,甚至有一些在Spark界已经非常出名了,我列出几个大家需要关注的。
· dibbhatt/kafka-spark-consumer目前Spark Streaming的Kafka connector是基于Kafka high-level API的,导致的直接后果是无法控制offset来replay数据。所以一个基于low-level的connector就非常有必要了。这个包就能更好的控制Kafka的offset,同时能更好的处理错误。对kafka比较了解的人应该知道,这里的receiver是会把最新的offset存在ZK里的。详情见:http://spark-packages.org/package/5
· spark-jobserver/spark-jobserver这个玩意儿其实我很早很早以前就在国内宣传过了,让我比较高兴的是,有几家大型互联网公司(真的算比较大)已经在采用, 它提供了RESTful API来提交和管理Spark任务。JobServer有不少有意思的功能,譬如说能预先建立SparkContext,并能在一个独立的Context中方便的共享RDD。 详情见:http://spark-packages.org/package/10 github:https://github.com/spark-jobserv ... graphs/contributors 据我所知,使用JobServer的各家几乎都做了不少改动,不过最近大家(包括我)有打算直接切换到最新的开源版本了。
·mengxr/spark-alsSpark MLlib的lead孟祥瑞提供的一个新的ALS实现,在使用原算法的前提下,采用新的实现使得效率有5倍左右的提升,这个我还是建议大家试一下,祥瑞不久前会北京时跟我提起过新的ALS的事,我本人还是比较期待,目前代码还未放出,他说是目前比较messy : ) 不过应该快了 详情见 : http://spark-packages.org/package/1其它值得注意的还有Spark性能测试工具databricks/spark-perf,时序数据处理killrweather/killrweather(名字很酷)
非常的东西,学习了,谢谢分享~ 感谢分享。 牛叉的新功能 不错~ 持续关注中。。
页:
[1]