本帖最后由 nettman 于 2015-4-11 01:00 编辑
问题导读
spark在在百度遇的问题,相信在一些企业同样也会遇到,比如如何与自己公司的产品向结合,公司使用spark来做什么。
那么
1.百度是如何使用spark的?
2.百度使用spark遇到了什么问题?
3.百度使用spark带来了什么效果?
4.马小龙认为spark的适用场景是什么?
CSDN:首先请介绍下您自己,以及您在Spark 技术方面所做的工作。 马小龙:我叫马小龙,目前在百度基础架构部做大数据处理平台,我主要关注Spark在公有云环境下的使用、优化。
CSDN:您所在的企业是如何使用Spark 技术的?带来了哪些好处? 马小龙:我们主要结合业务需求来对Spark进行优化,带来的好处是作业的处理速度有明显提升。
CSDN:您认为Spark 技术最适用于哪些应用场景? 马小龙:我个人认为Spark比较适合有迭代需求的大规模作业,比如机器学习等领域。
CSDN:企业在应用Spark 技术时,需要做哪些改变吗?企业如果想快速应用Spark 应该如何去做? 马小龙:Spark和现有的Hadoop生态整合得很好,所以数据方面没有迁移成本,但是业务算法需要重新实现,因此建议先评估现有的业务是否适合放在Spark上,然后再做迁移。企业如果想快速应用Spark,可以选择BMR,BMR提供了Spark镜像,可快速按需创建Spark集群:)
CSDN:您所在的企业在应用Spark 技术时遇到了哪些问题?是如何解决的? 马小龙: 主要是需要和企业现有的生态打通,需要做一些适配工作。
CSDN:作为当前流行的大数据处理技术,您认为Spark 还有哪些方面需要改进? 马小龙: Spark目前的发展势头很好,可以在稳定性方面逐渐改进。
|