分享

HDFS数据导入HIVE方案探讨

各位大神,一般我们仓库数据会存放到hfds目录下,通过load方式加载到hive中
但是现在想学习下除了load方法外,是否有其他方式实现
例如:实际需求里可能存在非规范化数据,数据列顺序并非与hive建表字段顺序一致,像这种情况,直接load就会映射错误
那么这种问题如何解决呢?
请各位指教一二


补充内容 (2018-11-2 09:55):
前置条件:hive库表有历史数据,不能每次重建表;数据存放到hdfs文件中,将此数据导入到hive表中;

已有(5)人评论

跳转到指定楼层
s060403072 发表于 2018-11-1 22:18:03
这里面需要细分,看从哪导入hive的。加载方式当然也很多,比如通过sqoop,通过代码api都可以实现。
还有其它比如
Hive四种数据导入方式介绍
http://www.aboutyun.com/forum.php?mod=viewthread&tid=7440


方式和方法很多,所以楼主可以描述的在详细些。
回复

使用道具 举报

BB_BDATA 发表于 2018-11-2 09:57:20
s060403072 发表于 2018-11-1 22:18
这里面需要细分,看从哪导入hive的。加载方式当然也很多,比如通过sqoop,通过代码api都可以实现。
还有其 ...

嗯谢谢,这个帖子说的是4种导入方式,而我的需求只是其中一种,对于hdfs文件导入hive的情况,帖子里用的就是load方式,我是想学习下除了load以外的方案
回复

使用道具 举报

yaojiank 发表于 2018-11-2 11:30:24
BB_BDATA 发表于 2018-11-2 09:57
嗯谢谢,这个帖子说的是4种导入方式,而我的需求只是其中一种,对于hdfs文件导入hive的情况,帖子里用的 ...

那你可以用sqoop,datax或则通过api编程导入
回复

使用道具 举报

fly2015 发表于 2018-11-2 15:29:55
spark 了解一下
回复

使用道具 举报

ledasion 发表于 2018-11-4 21:41:10
例如:实际需求里可能存在非规范化数据,数据列顺序并非与hive建表字段顺序一致,像这种情况,直接load就会映射错误
这个问题可以通过 awk 来调整字段顺序
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条