问题导读
1.什么是Spark Package?
2.本文spark Package各自的作用是什么?
假如这个库能持续的发展下去,从用户的角度来说肯定是非常欢迎的。打个不恰当的比喻,这玩意儿类似于Spark的“App Store”,越丰富越好。 不过目前这个库有不少只是列出来,并没有release,但是我相信很快就会release出来。 其中有几个库非常值得注意,甚至有一些在Spark界已经非常出名了,我列出几个大家需要关注的。
· dibbhatt/kafka-spark-consumer 目前Spark Streaming的Kafka connector是基于Kafka high-level API的,导致的直接后果是无法控制offset来replay数据。所以一个基于low-level的connector就非常有必要了。这个包就能更好的控制Kafka的offset,同时能更好的处理错误。对kafka比较了解的人应该知道,这里的receiver是会把最新的offset存在ZK里的。详情见: http://spark-packages.org/package/5
· spark-jobserver/spark-jobserver
·mengxr/spark-als Spark MLlib的lead孟祥瑞提供的一个新的ALS实现,在使用原算法的前提下,采用新的实现使得效率有5倍左右的提升,这个我还是建议大家试一下,祥瑞不久前会北京时跟我提起过新的ALS的事,我本人还是比较期待,目前代码还未放出,他说是目前比较messy : ) 不过应该快了 详情见 : http://spark-packages.org/package/1其它值得注意的还有Spark性能测试工具databricks/spark-perf,时序数据处理killrweather/killrweather(名字很酷)
|