分享

王联辉:Spark在腾讯应用及对企业spark使用指导

rsgg03 2015-3-25 17:19:41 发表于 技术应用 [显示全部楼层] 回帖奖励 阅读模式 关闭右栏 5 39214
本帖最后由 rsgg03 于 2015-3-25 17:25 编辑
问题导读

1.腾讯如何使用Spark 技术的?带来了哪些好处?
2.Spark 技术最适用于哪些应用场景?
3.企业在应用Spark 技术时,需要做哪些改变吗?
4.企业如果想快速应用Spark 应该如何去做?






王联辉
腾讯高级工程师
目前就职于腾讯数据平台部,担任高级工程师,主要负责腾讯TDW-Spark平台的研发和运营工作。从2009年开始从事Hadoop和大数据生态系统相关的工作,经历过Hadoop集群大规模的演变和扩张,对Hadoop、Hive、HBase、Yarn、Spark等开源项目有丰富的实践经验。2013年开始从事Spark平台的研究和使用运营实践,多年以来一直专注于分布式存储和计算等领域。


以下为CSDN针对王联辉的会前采访实录:
CSDN:首先请介绍下您自己,以及您在Spark 技术方面所做的工作。
王联辉:目前就职于腾讯数据平台部,担任高级工程师,主要负责腾讯TDW-Spark平台的研发和运营工作。


CSDN:您所在的企业是如何使用Spark 技术的?带来了哪些好处?
王联辉:我们的Spark平台是部署在Gaia(基于YARN进行了大量的优化)资源管理系统之上。在我们的实际应用案例中,发现Spark在性能上比传统的MapReduce计算有较大的提升,特别是迭代计算和DAG的计算任务。


CSDN:您认为Spark 技术最适用于哪些应用场景?
王联辉:具有迭代计算的数据挖掘和图计算应用,以及具有DAG的ETL/SQL计算应用。


CSDN:企业在应用Spark 技术时,需要做哪些改变吗?企业如果想快速应用Spark 应该如何去做?
王联辉:企业需要有了解Spark的工程师,如果想做一些Spark任务的调优工作,还需要对Spark内核有一定了解的工程师。如果想快速应用Spark,企业一方面需要培养或者招聘懂Spark的工程师,另一方面需要在实际应用中去使用和实践Spark。


CSDN:您所在的企业在应用Spark 技术时遇到了哪些问题?是如何解决的?
王联辉:前期我们的业务工程师在Spark的使用和调优上遇到了一些困难,以及Scala的学习上花了一些时间。我们通过实际应用实例给业务工程师指导编写Spark计算任务,使得业务工程师通过一个应用实例学会使用Spark,后续他们可以独立地完成编写Spark业务计算任务的工作。


CSDN:作为当前流行的大数据处理技术,您认为Spark 还有哪些方面需要改进?
王联辉:目前Core部分相对来说已经较稳定和成熟,但是其上面的几个组件如MLlib、SparkSQL、GraphX、Streaming在稳定性或性能上还有优化和改进的空间。另外Spark方面的参考资料比较少以及熟练使用Scala语言的程序员也比较少。


CSDN:您在本次演讲中将分享哪些话题?
王联辉:我会介绍TDW-Spark平台的实践情况,以及平台上部分典型的Spark应用案例及其效果,然后分享我们在Spark大规模实践应用过程中遇到的一些问题,以及我们是如何解决和优化这些问题。


CSDN:哪些听众最应该了解这些话题?您所分享的主题可以帮助听众解决哪些问题?
王联辉:想要大规模实践和应用Spark的人,这些话题一方面帮助大家了解目前我们Spark平台上的部分典型应用案例,另一方面帮助大家了解我们在Spark大规模实践应用过程中遇到的一些问题及其解决和优化方法。

欢迎大家如about云官方群371358502,更新咨询,更新资源,随时关注

已有(5)人评论

跳转到指定楼层
落魂草 发表于 2015-3-25 19:39:46
回复

使用道具 举报

feng01301218 发表于 2015-3-26 11:35:10
回复

使用道具 举报

zhujun182104906 发表于 2015-3-26 16:00:49
回复

使用道具 举报

ainubis 发表于 2015-3-30 02:18:59
回复

使用道具 举报

xstarcto 发表于 2015-4-17 17:21:16
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条