分享

基于Hadoop的58同城离线计算平台设计与实践

导读:58离线计算平台基于 Hadoop 生态体系打造,单集群4000+台服务器,数百 PB 存储,日40万计算任务,面临挑战极大。58大数据平台的定位主要是服务数据业务开发人员,提高数据开发效率,提供便捷的开发分析流程,有效支持数据仓库及数据应用建设。通常大数据平台通用基础能力包括:数据存储、实时计算、离线计算、数据查询分析,本次分享将聚焦大数据平台离线计算和大家一起系统的探讨58在离线计算平台建设实践的思路、方案和问题解决之道。

本文主要内容包括:

  •     58在集群快速增长的过程中遇到的问题以及解决之道;
  •     58大数据集群跨机房迁移的相关工作,如何在5个月时间快速完成3000台集群服务的迁移工作。

▌数据平台部简介
2020-06-02_184608.jpg
数据平台部是负责58统一大数据基础平台能力建设。平台负责的工作主要包括以下几部分:

  •     数据接入:文本的收集,我们采用 flume 接入,然后用 kafka 做消息缓冲,我们基于 kafka client 打造了一个实时分发平台,可以很方便的把 kafka 的中间数据打到后端的各种存储系统上。
  •     离线计算:我们主要基于 Hadoop 生态的框架做了二次定制开发。包括 HDFS、YARN、MR、SPARK。
  •     实时计算:目前主要是基于 Flink 打造了一个一栈式的流式计算开发平台 Wstream。
  •     多维分析:我们主要提供两组多维分析的解决方案。离线的使用 Kylin,实时的使用 Druid。
  •     数据库:在数据库的这个场景,我们主要还是基于 HBase 的这个技术体系来打造了出来,除了 HBase 提供海量的 K-V 存储意外,我们也基于 HBase 之上提供 OpenTSDB 的时序存储、JanusGraph 图存储。

我们综合以上技术框架支撑了公司上层的业务:如商业、房产、招聘等核心业务。 此外,整个数据平台部打造了统一的运营管理平台,各个用户在整个数据平台上 ( 包括离线平台、实时平台等 ) 使用的是同一套主账号在管理平台上做数据方面的管理,包括:元数据管理、成本预算、数据自助治理、以及运营监控的一些细节。

Hadoop 平台建设如何优化?YARN 建设如何优化?

可下载文档:
链接: https://pan.baidu.com/s/1UcACdUUZuAEpx-k935A_ow 提取码: n82c

原文链接:https://mp.weixin.qq.com/s/OPTvplgwtTPr2YJ0FzJG7A

没找到任何评论,期待你打破沉寂

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条