本帖最后由 师太跟我吧 于 2016-9-20 11:39 编辑
初涉hive,公司需要加载大量的日志到hive进行数据分析,无奈,产生的日志大小几乎都是几M甚至几十KB,由于来源不同,格式有的也有差别,分成好几类。
目前场景:每10分钟一次日志,从A处获取,a_city1.log,a_city2.log,从B处获取,b_city1.log,b_city2.log。里面的内容根据日志名称中提到的城市名不同,按照地区分类,然后每隔10分钟,加载到不同的hive地区表中。
1. 这个怎么处理?是要一个小文件一个小文件去加载吗?一般公司里对这种情况是怎么解决的?烦请过来人详细指点
2. 有文件合并的方式和这个有关系吗,合并是合并原生的日志文件,还是合并hadoop已经加载上来的?能解决上面提到的这种情况吗?具体怎么解决?谢谢!
|