本周三谷歌为Hadoop和Spark推出了Cloud Dataproc服务的beta版本,这项服务旨在帮助用户快速创建和关闭Hadoop和Spark集群,因为很多企业用户发现对Hadoop和Spark的安装和使用比想象的困难很多,尤其是当两者一起使用时。 谷歌声称使用Cloud Dataproc每一个集群操作至多只需要90秒,这对于企业用户来说是很有吸引力的,因为企业可以花更多时间在真正有价值的数据分析上面而不用花太多心思在集群的各种操作。 传统方式每次对Spark和Hadoop集群的启动扩容或关闭等操作需要五至三十分钟不等的时间,因此谷歌宣称Cloud Dataproc相比本地部署或是其他云服务提供商都占有优势。 价格方面是每个CPU每小时一分,可以精确到分钟而不是惯例的四舍五入到小时,不过Cloud Dataproc有起步价十分钟。此外谷歌还提供了抢占式虚拟机,虽然价格比普通虚拟机低70%,但最多可以使用24小时而且可能随时被关闭。抢占式虚拟机主要适用于容错性强的应用,比如用在批处理任务上,抢占式虚拟机被关闭时批处理任务只是速度变慢而不会完全停止除非你所有的实例都是抢占式虚拟机。 Cloud Dataproc可以与谷歌云平台的其他服务如BigQuery、Cloud Storage、Cloud BigTable、Cloud Logging和Cloud Monitoring等进行无缝集成,它的出现使谷歌的云平台生态更加完善。 用户可以使用多种方式来管理集群如Web界面、Cloud SDK、RESTful API和SSH而不需要专业人士或者专门软件的帮助。 现在beta版本的Cloud Dataproc针对的是Spark 1.5和Hadoop 2.7.1不过谷歌称会根据Spark和Hadoop的版本进行动态更新。
|