1,交互性数据分析,但是速度问题,hive无法用,改用sparksql读取hive中的表不知道是否可行,目前还在测试探索这个可行性,另外还听闻kylin是非常强大的OLAP,不知道kylin是否适合我们,希望有经验的不吝分享下。谢谢! spark sql可以,hive on tez很多公司在用的,速度也不错。kylin目前资料还是不多的。如果想更稳一些,还是使用比较常见的。 2,数据关联性分析和信息挖掘部分,之前用python来进行分析,不知道python在hadoop之上还是否用武之地。 python是数据挖掘比较好的语言。如果是hadoop到是也是可以的。不过最正统的还是Java 3,hadoop是如何利用多台机子进行分布式计算的?Hive 的mapreduce比较好理解。 例如请问:利用spark跑一些机器学习的算法的时候,其中的相关RDD是在不同的机器里的么? spark的rdd也是分布式的,在多台机器。并且spark自己提供了很多算法。 更多楼主可以自己搜一下 2016年携程Spark算法平台及其应用 http://www.aboutyun.com/forum.php?mod=viewthread&tid=21473 spark机器学习算法实现【代码】 http://www.aboutyun.com/forum.php?mod=viewthread&tid=14899 Spark MLlib算法之KMeans应用实例讲解【附代码下载】 http://www.aboutyun.com/forum.php?mod=viewthread&tid=21436 Spark 随机森林算法原理、源码分析及案例实战 http://www.aboutyun.com/forum.php?mod=viewthread&tid=16656 |