关于大数据领域的数据挖掘的疑问

小弟现在搞hadoop，hive，hbase。私下学习些机器学习，数据挖掘算法相关，但总是感觉所看的各种挖掘算法没法和海量的数据关联起来，疑问如下，求开导解释。

1.大数据中用MR，hive，spark对数据进行统计分析，算挖掘吗？
2.机器学习中各种聚类分类关联规则等算法怎样应用到海量数据中呢？根据他的思想写MR？（在这块特感有心无力，所学没法应用到海量数据中提供解决方案）
3.看到不少提到R做数据挖掘，但R能hold住海量数据吗？海量数据领域有学习R的必要吗？
4.如果做海量数据的挖掘，有什么好推荐的呢？mahout？others？

望分条解答。拜谢！

arsenduan · 发表于 2015-10-23 20:32:48

数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关，并通过统计、在线分析处理、情报检索、机器学习、专家系统（依靠过去的经验法则）和模式识别等诸多方法来实现上述目标。

1.大数据中用MR，hive，spark对数据进行统计分析，算挖掘吗？
数据挖掘在没有Mr，hive，spark的时候就已经有这个职业了，但是如果只是简单的分析，个人认为还算不上数据挖掘。数据挖掘应该更专业些。
二者有类似，但是却有着量的区别。
2.看看mahout是产生大数据后，用来数据挖掘的，而且也有一些算法
3.数据挖掘R还是比较擅长的，其它语言也可做数据挖掘。
4.海量数据的挖掘，mahout是比较新的技术。
很多都是婆说婆有理，公说公有理的事情。建议在会数据挖掘技术的基础上，多学些新技术

图文精华

关于大数据领域的数据挖掘的疑问

已有(1)人评论

最佳新人

活跃会员

热心会员

推荐 /2