分享

Spark 在百度开放云 BMR 上的实践常见问题

desehawk 发表于 2015-3-7 17:22:49 [显示全部楼层] 回帖奖励 阅读模式 关闭右栏 1 14303

BMR相关问题
1:BMR 为什么叫 Baidu Map Reduce?
BMR 是面向企业和开发者的大数据处理服务,不仅包含完全开源的 Hadoop 软件栈,也包括完全开源的 Spark 软件栈。

2:BMR 中“使用时创建,空闲时销毁”是什么意思?这样做有什么好处?
BMR 底层依赖百度云服务器服务,在用户提交作业时申请云服务器创建HADOOP/SPARK 集群,运行用户提交的作业。当作业运行完,集群空闲时,BMR 自动销毁集群。
这样做主要的好处是弹性计算。因为计算资源是按时间计费,计算资源在需要时才申请,空闲时释放。避免计算资源浪费,降低用户的使用成本。
BMR 也提供常驻模式的集群,除非用户手动释放,否则一直运行。

Shuffle相关技术问题

1. 新Shuffle是否会增加网络IO?
新Shuffle的确会增加一些网络IO,但是百度内部集群已经逐渐过渡到万兆环境,集群内的网络IO不是问题。

2. 新Shuffle为什么只有Indy类别成绩,会参加Daytona类别的比赛吗?
参加Benchmark比赛时由于新Shuffle还处在起步阶段,存在一些通用性和稳定性问题,一些优化工作也还没有完成,预期很快会在要求更为严格的Daytona类别的比赛中取得理想的成绩。

3. 新Shuffle的稳定性如何?
现在新Shuffle已经经过百度内部试运行,上线了多个集群,稳定性问题已经得到验证。
4. 新Shuffle是否考虑开源的问题?
考虑到百度使用C/C++的工程师很多,目前新Shuffle采用C++开发;未来,我们会实现一套Java版本的新Shuffle来开源。


Tachyon相关问题
1.是否可以把Tachyon与新Shuffle结合以达到in-memory shuffle的效果?
确实, 这也是我们研究方向之一。虽然内存计算逐渐成为趋势,但也仅仅是“更充分的利用内存”,考虑到成本等因素,在短时间内内存不可能完全替代磁盘。
当计算的数据量大到整集群内存都无法容纳时,还是需要写磁盘,新Shuffle的优势还是能够得以体现。
新Shuffle后续也的确有与分布式内存文件系统对接的计划,但不管是磁盘还是内存,在基于同样介质的前提下,新Shuffle比原Shuffle的实现都更高效。
2.Spark也可以分享内存,为什么还要Tachyon?
Tachyon把内存存储的功能从SPARK中分离出来,让SPARK更专注于计算本身, 减少GC,让计算更加流畅。

已有(1)人评论

跳转到指定楼层
ainubis 发表于 2015-4-1 22:00:29
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条