分享

如果进行日志数据的字段分割

will58me 发表于 2016-6-6 17:04:10 [显示全部楼层] 回帖奖励 阅读模式 关闭右栏 1 4927
我现在使用flume+kafka实现了日志的采集,然后存到了hdfs里面, 但是现在日志的格式一条条都是这样的:
[2016/06/09 20:05:35:447][DEBUG]-[Finance_sql_CashWithdraw.cpp:214]|no data found for query!

里面有时间,DEBUG,文件名字, 输出信息, 使用的分隔符也是各种情况都有(这个只是一种情况,因为采集的数据源很多)


现在我需要分割字段然后存到hive表中,比如针对这种格式我定义time,debug,  file_name, info 这几个字段分别存储, 但是现在存到我hdfs里的是这样格式的, 这种分割动作在哪里做呢?

1.  在flume是否可以做,采集的时候就分割开。

2.  在导入hive的时候做??

3.  是否存在其他的ETL工具?

反正我目前不是很了解,希望懂的大牛指点迷津。


已有(1)人评论

跳转到指定楼层
nextuser 发表于 2016-6-6 17:35:27
flume只是传输工具,应该不可以的。除非二次开发。可以在导入hive过程中分割
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条