分享

hadoop 数据存储问题

LoveJW 发表于 2014-11-6 09:50:42 [显示全部楼层] 回帖奖励 阅读模式 关闭右栏 7 13328
我从别的关系型数据库导数据到hadoop集群,如:mysql,oracle等数据库。是直接导入到hdfs上好?还是导入到hbase里好?存在这两者里,各有什么不同?数据我是用来分析的,比如查询,或者其他。hbase里的数据格式和其他数据库里的不一样,可以直接拿来用,但是hdfs是以文件形式存储的,如果是存在hdfs上,我使用hive分析,怎么能把这个文件当作表使用呢?

已有(7)人评论

跳转到指定楼层
jixianqiuxue 发表于 2014-11-6 10:51:57
可以导入hbase中,但是rowkey要设计好,查询速度比较快。
不知道如何设计参考下面内容:
总体来说就是要保证数据能否散列到各个节点,不要产生热数据
hbase之rowkey的设计讨论

hbase主键设计
HBase Rowkey的散列与预分区设计
Hbase初步入门-- 表该如何构造和设计





导入hdfs中,可以使用hive创建外部表,外部表,可以参考下面链接。

其实这种方式也不错

hive内部表与外部表区别详细介绍



回复

使用道具 举报

LoveJW 发表于 2014-11-6 14:19:05
jixianqiuxue 发表于 2014-11-6 10:51
可以导入hbase中,但是rowkey要设计好,查询速度比较快。
不知道如何设计参考下面内容:
总体来说就是要 ...

我现在就是把数据导入到hdfs上,但是又出现了一个问题,就是我的数据每天都在增加,就是数据库那边每天都会有新的数据出现,这一部分新数据我怎么加之前已经导入的表里呢?
回复

使用道具 举报

desehawk 发表于 2014-11-6 15:34:04

sqoop支持追加功能,如下:

  1. 从数据库增量导入表数据到hdfs中
  2. ./sqoop import –connect jdbc:mysql://10.28.168.109:3306/compression
  3. –username=hadoop –password=123456 –table HADOOP_USER_INFO -m 1
  4. –target-dir /user/test  –check-column id –incremental append
  5. –last-value 3
复制代码

详细参考



回复

使用道具 举报

LoveJW 发表于 2014-11-6 15:57:56
回复

使用道具 举报

bioger_hit 发表于 2014-11-6 17:23:07
本帖最后由 bioger_hit 于 2014-11-6 17:25 编辑
LoveJW 发表于 2014-11-6 15:57–check-column id –incremental append –last-value 3这里的分别是什么意思,这几个属性? ...


别人给你指出了方向,更多的需要自己去摸索,如果知识都从别人那里获取,自己的能力也会严重下降这里面是指检查的字段,last可以看看英文的含义和自己实践,这些都自己实践得出自己想要的结果

比如id是指检查的字段,然后根据提供的value为界线,然后插入数据。
其实这些自己猜都能猜出来,比如下面num_iid肯定是检查的字段,以这个为标准,然后往数据库里面追加内容。


再给你补充一些内容:


sqoop支持两种增量MySql导入到hive的模式,
一种是 append,即通过指定一个递增的列,比如:
--incremental append  --check-column num_iid --last-value 0
另种是可以根据时间戳,比如:
--incremental lastmodified --check-column created --last-value '2014-11-01 11:0:00'
就是只导入created 比'2014-11-01 11:0:00'更大的数据。



回复

使用道具 举报

bioger_hit 发表于 2014-11-6 17:29:38

这里有sqoop专题,可以多学习下,两三天就能熟悉。
http://www.aboutyun.com/forum-147-1.html
回复

使用道具 举报

LoveJW 发表于 2014-11-6 17:30:58
bioger_hit 发表于 2014-11-6 17:29
这里有sqoop专题,可以多学习下,两三天就能熟悉。
http://www.aboutyun.com/forum-147-1.html

好的,谢谢
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条