什么是数据挖掘？

本帖最后由 pig2 于 2014-4-11 22:13 编辑

1、什么是数据挖掘？

我们通常容易把数据挖掘和其它数据处理混淆，那么针对这点做一些基本的区分和比较：

通常我们用一句sql语句就能查找到的数据，还有通过基本的搜索找到数据，都不叫数据挖掘。而把相似的东西聚集在一起，然后进行分析处理得到信息才能算数据挖掘。举个例子，你在搜索引擎里面检索苹果，那么出现的有水果的苹果，也有苹果电脑，这种检索就是基本的查找，不叫数据挖掘，而将找到的数据进行归类处理，不是机械的搜索才是数据挖掘。

在统计学里面，比较侧重已有的模型来分析数据，得到结果，统计学里面还有样本推断总体，而数据挖掘则是侧重通过已有数据，进行分析处理得出结论，没有那么侧重于模型，比如最经典的啤酒和尿布的例子，正是通过发现了客户购买啤酒和购买尿布的关系，从而选择将啤酒和尿布放在同一个货架上，这一发现为商家带来大量利润，然而在分析这些数据之前，我们并没有任何已定的模型。

2、Hadoop在数据挖掘中有什么应用？

Hadoop使用HDFS来存储文件和数据。使用MapReduce将数据文件系统中具有大计算特征的各个子模块的计算任务发布到集群中的各个节点实现并行计算，为数据挖掘中要处理大量数据提供了条件，Hadoop作为大数据框架，方便了数据挖掘理论在实际项目中的应用。

关于Hadoop环境的搭建与Hadoop工程的建立，群里有很多相关资料，这里就不再一一说明。

3、数据挖掘的相关算法有哪些？

毫无疑问，数据挖掘的算法是很多的，那么就列出一些常用的算法：

• #1: C4.5 (61 votes)

• #2: K-Means (60 votes)

• #3: SVM (58 votes)

• #4: Apriori (52 votes)

• #5: EM (48 votes)

• #6: PageRank (46 votes)

• #7: AdaBoost (45 votes)