feilong 发表于 2018-4-6 21:37:21

Spark 高级分析:第五章第7节 使用R语言可视化聚类结果

本帖最后由 feilong 于 2018-4-6 21:39 编辑

问题导读

1.Spark本身有可视化工具吗?
2.如何用R将聚类结果可视化?
3.如何查看分析可视化结果?


http://www.aboutyun.com/static/image/hrline/4.gif



上一篇:Spark 高级分析:第五章第6节 K-Means聚类k值选择
http://www.aboutyun.com/forum.php?mod=viewthread&tid=24212&extra=



在这一点上,查看数据点的图可能是有用的。Spark本身没有可视化的工具。但是,数据可以很容易地导出到HDFS,然后读取到像R这样的统计环境中。这个简短的部分将演示使用R来可视化数据集。

虽然R为2或3维的绘图点提供了库,但是这个数据集是38维的。它必须被投影到最多三维空间。此外,R本身不适合处理大数据集,而这个数据集对于R来说肯定是大的,它必须被采样以适应R中的内存。

首先,用k = 100构建一个模型,并将每个数据点映射到一个集群编号。将这些特性写入到HDFS文件上的CSV文件中:
val sample = data.map(datum =>
model.predict(datum) + "," + datum.toArray.mkString(",")
).sample(false, 0.05)
sample.saveAsTextFile("/user/ds/sample")
Sample()用于选择所有行的一个小子集,使其更适合于在R中的内存,5%的行是选中的(不需要替换)。

下面的R代码从HDFS读取CSV数据。这也可以通过像rhdfs这样的库来完成,它可以进行一些安装和安装。这里,它只是使用一个本地安装的hdfs命令从一个Hadoop发行版,为了简单。这需要将HA DOOP_CONF_DIR设置为Hadoop配置的位置,配置定义了HDFS集群的位置。

它通过选择3个随机单元向量并将数据投影到这3个向量上,创建了一个三维数据集。这是一种简单的、粗糙的、准备好的尺寸减少形式。当然,还有更复杂的尺寸简化算法,比如主成分分析或奇异值分解。这些在R中是可用的,但是运行的时间要长得多。为了在本例中实现可视化,一个随机的投影可以实现很多相同的结果,速度要快得多。

结果显示为交互式三维可视化。注意,这需要在支持rgl库和图形的环境中运行R。例如,在Mac OS X上,需要安装来自苹果开发工具的X11。
install.packages("rgl") # First time only
library(rgl)
clusters_data <-
read.csv(pipe("hadoop fs -cat /user/ds/sample/*"))
clusters <- clusters_data
data <- data.matrix(clusters_data[-c(1)])
rm(clusters_data)
random_projection <- matrix(data = rnorm(3*ncol(data)), ncol = 3)
random_projection_norm <-
random_projection /
sqrt(rowSums(random_projection*random_projection))
projected_data <- data.frame(data %*% random_projection_norm)
num_clusters <- nrow(unique(clusters))
palette <- rainbow(num_clusters)
colors = sapply(clusters, function(c) palette)
plot3d(projected_data, col = colors, size = 10)

图5 - 1 随机的三维投影
图5-1所示的可视化结果显示了在三维空间中被集群数字所遮蔽的数据点。许多点相互重叠,结果是稀疏的,难以解释。然而,可视化的主要特征是它的“L”形状。这些点似乎在两个不同的维度上有所不同,而在其他维度上却很少。

这是有意义的,因为数据集有两个特性,它们的规模比其他的大得多。虽然大多数特性的值在0到1之间,但是字节发送和字节接收的特性在0到几万之间变化。因此,点之间的欧氏距离几乎完全由这两个特征决定。几乎就好像其他的功能不存在一样!因此,重要的是要将这些差异规模化,以使其具有近乎平等的地位。

不可替代 发表于 2018-4-7 08:34:48

666,走一波
页: [1]
查看完整版本: Spark 高级分析:第五章第7节 使用R语言可视化聚类结果