弹性分布式数据集(RDD,从Spark 1.3版本开始已被DataFrame替代) 介绍的挺详细,但这句话有问题吧。 spark 1.3 以后RDD 怎么会被DataFrame 替代呢?这两个根本就是不同的概念。 1.3以后引入了DataFrame 更方便的处理各种数据源了,并能能把数据映射成一个table 来用sql 语法处理处理。但底层执行还是用的RDD算子 血缘迭代运算。 RDD 是spark 计算框架的最小算子 是它灵魂 核心,两者完全不同,没有了RDD 还能叫Spark 吗? |
很不错,谢谢楼主,学习了· |
很不错, |
收藏一下看看 |
学习了。值得新手一看 |
不错。适合新手。 |