王联辉：Spark在腾讯应用及对企业spark使用指导

本帖最后由 rsgg03 于 2015-3-25 17:25 编辑
问题导读

1.腾讯如何使用Spark 技术的？带来了哪些好处？
2.Spark 技术最适用于哪些应用场景？
3.企业在应用Spark 技术时，需要做哪些改变吗？
4.企业如果想快速应用Spark 应该如何去做？

王联辉

腾讯高级工程师

目前就职于腾讯数据平台部，担任高级工程师，主要负责腾讯TDW-Spark平台的研发和运营工作。从2009年开始从事Hadoop和大数据生态系统相关的工作，经历过Hadoop集群大规模的演变和扩张，对Hadoop、Hive、HBase、Yarn、Spark等开源项目有丰富的实践经验。2013年开始从事Spark平台的研究和使用运营实践，多年以来一直专注于分布式存储和计算等领域。

以下为CSDN针对王联辉的会前采访实录：

CSDN：首先请介绍下您自己，以及您在Spark 技术方面所做的工作。

王联辉：目前就职于腾讯数据平台部，担任高级工程师，主要负责腾讯TDW-Spark平台的研发和运营工作。

CSDN：您所在的企业是如何使用Spark 技术的？带来了哪些好处？

王联辉：我们的Spark平台是部署在Gaia（基于YARN进行了大量的优化）资源管理系统之上。在我们的实际应用案例中，发现Spark在性能上比传统的MapReduce计算有较大的提升，特别是迭代计算和DAG的计算任务。

CSDN：您认为Spark 技术最适用于哪些应用场景？

王联辉：具有迭代计算的数据挖掘和图计算应用，以及具有DAG的ETL/SQL计算应用。

CSDN：企业在应用Spark 技术时，需要做哪些改变吗？企业如果想快速应用Spark 应该如何去做？

王联辉：企业需要有了解Spark的工程师，如果想做一些Spark任务的调优工作，还需要对Spark内核有一定了解的工程师。如果想快速应用Spark，企业一方面需要培养或者招聘懂Spark的工程师，另一方面需要在实际应用中去使用和实践Spark。

CSDN：您所在的企业在应用Spark 技术时遇到了哪些问题？是如何解决的？

王联辉：前期我们的业务工程师在Spark的使用和调优上遇到了一些困难，以及Scala的学习上花了一些时间。我们通过实际应用实例给业务工程师指导编写Spark计算任务，使得业务工程师通过一个应用实例学会使用Spark，后续他们可以独立地完成编写Spark业务计算任务的工作。

CSDN：作为当前流行的大数据处理技术，您认为Spark 还有哪些方面需要改进？

王联辉：目前Core部分相对来说已经较稳定和成熟，但是其上面的几个组件如MLlib、SparkSQL、GraphX、Streaming在稳定性或性能上还有优化和改进的空间。另外Spark方面的参考资料比较少以及熟练使用Scala语言的程序员也比较少。

CSDN：您在本次演讲中将分享哪些话题？

王联辉：我会介绍TDW-Spark平台的实践情况，以及平台上部分典型的Spark应用案例及其效果，然后分享我们在Spark大规模实践应用过程中遇到的一些问题，以及我们是如何解决和优化这些问题。

CSDN：哪些听众最应该了解这些话题？您所分享的主题可以帮助听众解决哪些问题？

王联辉：想要大规模实践和应用Spark的人，这些话题一方面帮助大家了解目前我们Spark平台上的部分典型应用案例，另一方面帮助大家了解我们在Spark大规模实践应用过程中遇到的一些问题及其解决和优化方法。

落魂草 · 发表于 2015-3-25 19:39:46

feng01301218 · 发表于 2015-3-26 11:35:10

zhujun182104906 · 发表于 2015-3-26 16:00:49

ainubis · 发表于 2015-3-30 02:18:59

xstarcto · 发表于 2015-4-17 17:21:16

图文精华

王联辉：Spark在腾讯应用及对企业spark使用指导

已有(5)人评论

推荐 /2