分享

如何使用kettle将数据导入CDH的hive当中

CCDK 发表于 2017-5-5 15:16:37 [显示全部楼层] 只看大图 回帖奖励 阅读模式 关闭右栏 9 30725
我用的cdh是5.7.5,kettle5.4,数据库用的自定义postgresql9.4,刚接触kettle,网上相关资料好少啊,望大神给些建议或者帮忙参考下改如何用kettle将数据导入hive中(这里还有点不是很理解,cdh中的hive 和hive2到底什么区别?如何查看自己用的是hive还是hive2?)

已有(9)人评论

跳转到指定楼层
2017 发表于 2017-5-5 18:09:00
kettle将数据导入hive中,跟其它应该区别不大。熟悉了kettle的使用,其它根据界面,填写内容即可。
推荐资料

ETL kettle  视频教程
http://www.aboutyun.com/forum.php?mod=viewthread&tid=10841



回复

使用道具 举报

2017 发表于 2017-5-5 17:56:48
应该是 HiveServer或者HiveServer2吧


        两者都允许远程客户端使用多种编程语言,通过HiveServer或者HiveServer2,客户端可以在不启动CLI的情况下对Hive中的数据进行操作,连这个和都允许远程客户端使用多种编程语言如java,python等向hive提交请求,取回结果(从hive0.15起就不再支持hiveserver了),但是在这里我们还是要说一下hiveserver

       HiveServer或者HiveServer2都是基于Thrift的,但HiveSever有时被称为Thrift server,而HiveServer2却不会。既然已经存在HiveServer,为什么还需要HiveServer2呢?这是因为HiveServer不能处理多于一个客户端的并发请求,这是由于HiveServer使用的Thrift接口所导致的限制,不能通过修改HiveServer的代码修正。因此在Hive-0.11.0版本中重写了HiveServer代码得到了HiveServer2,进而解决了该问题。HiveServer2支持多客户端的并发和认证,为开放API客户端如JDBC、ODBC提供更好的支持。

       2:两者的区别
       Hiveserver1 和hiveserver2的JDBC区别:
       HiveServer version               Connection URL                    Driver Class

       HiveServer2                          jdbc:hive2://:                          org.apache.hive.jdbc.HiveDriver
       HiveServer1                          jdbc:hive://:                            org.apache.hadoop.hive.jdbc.HiveDriver

上面应该能看出了,可以从hive版本及url中可以看到他们的信息。

回复

使用道具 举报

2017 发表于 2017-5-5 18:00:35
对于hive1.x和2.x:跟hadoop1.x与hadoop2.x是差不多的,是功能上做了一些改变。详细参考下面
1.jpg

2.jpg

3.jpg
回复

使用道具 举报

CCDK 发表于 2017-5-8 09:14:38
2017 发表于 2017-5-5 17:56
应该是 HiveServer或者HiveServer2吧

很直观,谢谢。我原来是用别人编写的脚本将本地的txt数据或者.del数据上传到hive的,现在要用kettle该怎么操作好呢,上周我已经完成了将cdh——hive中的数据共享到了kettle里面,不过经理说他要的是可以转换数据,就是前面说的,将txt等文件里面的数据 导进去,用kettle.

回复

使用道具 举报

langke93 发表于 2017-5-8 09:23:06
CCDK 发表于 2017-5-8 09:14
很直观,谢谢。我原来是用别人编写的脚本将本地的txt数据或者.del数据上传到hive的,现在要用kettle该怎 ...

kettle数据量大容易崩溃,sqoop也可以做这个事情,而且专门针对大数据的
回复

使用道具 举报

CCDK 发表于 2017-5-8 09:31:33
2017 发表于 2017-5-5 18:09
kettle将数据导入hive中,跟其它应该区别不大。熟悉了kettle的使用,其它根据界面,填写内容即可。
推荐资 ...

我先看下这个视频资料,辛苦啦!
回复

使用道具 举报

CCDK 发表于 2017-5-8 09:32:42
langke93 发表于 2017-5-8 09:23
kettle数据量大容易崩溃,sqoop也可以做这个事情,而且专门针对大数据的

恩,之前一个老师就让我用sqoop来导入数据,但是公司现在要求用kettle。。。
回复

使用道具 举报

ledasion 发表于 2017-5-8 16:38:42
先设置数据库连接
连接类型: hadoop HIve2
连接方式: JDBC
C:\Users\ledasion\Desktop\数据库连接.png
数据库连接.png
回复

使用道具 举报

YTP520YTP 发表于 2017-12-6 18:07:21
楼主解决了吗?
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条