分享

about云日志分析项目-kafka+storm+hive概述

Tank_2000 发表于 2017-1-26 20:58:34 [显示全部楼层] 回帖奖励 阅读模式 关闭右栏 0 2170
软件环境:
CDH5.7.5
JDK1.8
集群有5个节点

本项目总体需求是用于日志采集,存储,数据实时和离线分析。

总体技术方案采用 kafka+storm+hive 实现日志接收,数据转换,永久存储。

具体的实现思路:
1.日志消息从flume传到kakfa消息队列, storm 采用storm-kafka插件对kafka消息进行读写
2.storm-kakfa中的kafkaspout 接收到消息队列后,发送给bolt,bolt对日志信息进行转换,将数据转化成hive表里面的没一个字段
3.使用storm-hive 插件中的hive streaming 将转化好的字段信息实时插入hive日志明细表中
4.后期根据需求,离线分析时,可以以hive日志明细表为基础数据,对数据进行不同粒度的汇总,汇总结果存放的另外的hive汇总表中
5.同时如果有实时统计指标的需求,可以使用storm对数据进行实时汇总统计,并将统计结果存入hbase表或者mysql汇总表


没找到任何评论,期待你打破沉寂

关闭

推荐上一条 /2 下一条