分享

Hadoop新成员Hadoop-Cloudera公司将Spark加入Hadoop

本篇文章思考的问题:
为什么Hadoop家族要加入Spark?
MapReduce能否改善,MapReduce适合什么场景,是否MapReduce一无是处?
Spark作为一个通用的并行计算框架,已经成为继Hadoop之后又一大热门开元项目,逐渐获得很多企业的支持。近日,Cloudera正式宣布开始商业支持Apache Spark 机器学习和数据流处理环境。
Spark内存计算框架适合各种迭代算法和交互式数据分析,能够提升大数据处理的实时性和准确性。而MapReduce处理框架则擅长复杂的批处理操作、登陆过滤、ETL(数据抽取、转换、加载)、网页索引等应用,MapReduce在低延迟业务上一直被人所诟病。

8488211.jpg

图一:Spark内存计算框架。
“Spark记录着数据产生的每一个操作,能够可靠地将这些数据存储在内存之中,这使得它非常适用于低延时的计算和有效的迭代算法。”Cloudera表示。
据悉,Cloudera Enterprise Data Hub版本提供多种先进的组件的无限支持,如交互式SQL分析的Impala、交互式搜索、导航数据管理以及Hbase NoSQL。Enterprise Flex版本则提供可选择组件版本,Enterprise Basic版本则是仅仅提供Hadoop基础核心组件。
根据Cloudera介绍,Cloudera将会在两个版本中安装支持Spark组件。用户可以利用它作为Enterprise Flex版本中一个可选组件,或者作为Enterprise Data Hub版本中包含的组件。
9215961.jpg
图二:Spark On YARN
据悉,该产品采用了Spark 0.9.0,Spark独立模式已经在Cloudera Enterprise Data Hub4.4.0中测试过。在不久的将来,Cloudera表示Enterprise 5.0和YARN中也将支持Spark。

来自群组: Hadoop技术组

已有(4)人评论

跳转到指定楼层
a1232112321 发表于 2014-2-18 10:18:06
好东东好东东好东东
回复

使用道具 举报

landylee 发表于 2014-9-29 16:10:15
不错,,学习新知识
回复

使用道具 举报

quenlang 发表于 2014-10-2 21:49:12
了解一下,跟跟潮流,就当扫盲了,感谢楼主的分享,支持一下
回复

使用道具 举报

ymhua 发表于 2015-8-6 11:04:56
讲的比较详细,挺容易明白的!
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条