BMR相关问题 1:BMR 为什么叫 Baidu Map Reduce? BMR 是面向企业和开发者的大数据处理服务,不仅包含完全开源的 Hadoop 软件栈,也包括完全开源的 Spark 软件栈。
2:BMR 中“使用时创建,空闲时销毁”是什么意思?这样做有什么好处? BMR 底层依赖百度云服务器服务,在用户提交作业时申请云服务器创建HADOOP/SPARK 集群,运行用户提交的作业。当作业运行完,集群空闲时,BMR 自动销毁集群。 这样做主要的好处是弹性计算。因为计算资源是按时间计费,计算资源在需要时才申请,空闲时释放。避免计算资源浪费,降低用户的使用成本。 BMR 也提供常驻模式的集群,除非用户手动释放,否则一直运行。
Shuffle相关技术问题
1. 新Shuffle是否会增加网络IO? 新Shuffle的确会增加一些网络IO,但是百度内部集群已经逐渐过渡到万兆环境,集群内的网络IO不是问题。
2. 新Shuffle为什么只有Indy类别成绩,会参加Daytona类别的比赛吗? 参加Benchmark比赛时由于新Shuffle还处在起步阶段,存在一些通用性和稳定性问题,一些优化工作也还没有完成,预期很快会在要求更为严格的Daytona类别的比赛中取得理想的成绩。
3. 新Shuffle的稳定性如何? 现在新Shuffle已经经过百度内部试运行,上线了多个集群,稳定性问题已经得到验证。 4. 新Shuffle是否考虑开源的问题? 考虑到百度使用C/C++的工程师很多,目前新Shuffle采用C++开发;未来,我们会实现一套Java版本的新Shuffle来开源。
Tachyon相关问题 1.是否可以把Tachyon与新Shuffle结合以达到in-memory shuffle的效果? 确实, 这也是我们研究方向之一。虽然内存计算逐渐成为趋势,但也仅仅是“更充分的利用内存”,考虑到成本等因素,在短时间内内存不可能完全替代磁盘。 当计算的数据量大到整集群内存都无法容纳时,还是需要写磁盘,新Shuffle的优势还是能够得以体现。 新Shuffle后续也的确有与分布式内存文件系统对接的计划,但不管是磁盘还是内存,在基于同样介质的前提下,新Shuffle比原Shuffle的实现都更高效。 2.Spark也可以分享内存,为什么还要Tachyon? Tachyon把内存存储的功能从SPARK中分离出来,让SPARK更专注于计算本身, 减少GC,让计算更加流畅。
|