请问sqoop 如何把sqlserver 数据导入 hive，且用orc格式存储

我用sqoop 把sql server 数据导入到hive中，但是sqoop 支持文本格式和parquet格式的，但是不支持orc格式。
如何做，请教一下？

管理员，不好意思，我不能在sqoop区发言，请见谅，谢谢。

yhb007008 · 发表于 2016-7-29 15:08:41

1.环境
  java version "1.8.0_65"
  hadoop 2.7.2
  hive 2.0
  sqoop 1.4.6
2.所需软件包
  ①.sqljdbc_3.0.1301.101_chs.tar  //下载地址:http://www.microsoft.com/en-us/d ... ang=en&id=21599
  ②.sqoop-sqlserver-1.0.tar //改软件包微软已经不提供下载,CSDN有收费
3.软件安装
  ①.$tar -xvf ljdbc_3.0.1301.101_chs.tar  将解压后拷贝sqljdbc4.jar到${SQOOP_HOME}/lib目录下
  ②.解压qoop-sqlserver-1.0.tar ,配置环境变量MSSQL_CONNECTOR_HOME="/soft/sqoop-sqlserver-1.0",进入,执行 sh install.sh,下述为成功例子:
ubuntu@namenode-01:/soft/sqoop-sqlserver-1.0$ sh install.sh
Starting 'Microsoft SQL Server - Hadoop' Connector installation ...
SQOOP_HOME set to: /soft/sqoop
SQOOP_CONF_DIR set to: /soft/sqoop/conf
Installing 'SQL Server - Hadoop' Connector library ...
Installed library
Installing 'SQL Server - Hadoop' Connector configuration ...
Installed configuration
'SQL Server - Hadoop' Connector Installation completed successfully.
4.这时准备工作已经完成,已经可以从SQL server将数据load过来,需要注意的是 --connect ''
①.单个表import
sqoop import \
--connect 'jdbc:sqlserver://192.168.88.125; username=sa;password=123;database=testgold' \
--table da_jxc_daysum \
--fields-terminated-by "," \
--lines-terminated-by "\n" \
--target-dir /user/ubuntu/sql/da_jxc_daysum \
-m 1
②.将SQL server表导入到hive里
sqoop import  \
--connect 'jdbc:sqlserver://192.168.88.125; username=sa;password=123;database=testgold' \
--table da_jxc_daysum \
--target-dir /user/sql/da_jxc_daysum \
-m 1 \
--fields-terminated-by "," \
--lines-terminated-by "\n" \
--hive-import \
--hive-overwrite \
--create-hive-table \
--hive-table da_jxc_daysum \
--delete-target-dir
5.增量导入
①.--check-column (col) 用来作为判断的列名，如id
②.--incremental (mode) append：追加，比如对大于last-value指定的值之后的记录进行追加导入。lastmodified：最后的修改时间，追加last-value指定的日期之后的记录
③.--last-value (value) 指定自从上次导入后列的最大值（大于该指定的值），也可以自己设定某一值

以下是个以时间为增量的例子:
sqoop job --create sqoop_jop1 -- import  --connect 'jdbc:sqlserver://192.168.88.125; username=sa;password=123;database=testgold'  --table da_jxc_daysum  --target-dir  /user/hive/warehouse/my01 --append --check-column "modify_date"  --incremental lastmodified --last-value "2016-07-19 00:00:00.001" -m 1

qcbb001 · 发表于 2016-7-29 16:16:35

确实有这么个bug。楼主试试下面语句

[mw_shl_code=bash,true]sqoop import
--connect jdbc:postgresql://foobar:5432/my_db
--driver org.postgresql.Driver
--connection-manager org.apache.sqoop.manager.GenericJdbcManager
--username foo
--password-file hdfs:///user/foobar/foo.txt
--table fact
--hcatalog-home /usr/hdp/current/hive-webhcat
--hcatalog-database my_hcat_db
--hcatalog-table fact
--create-hcatalog-table
--hcatalog-storage-stanza 'stored as orc tblproperties ("orc.compress"="SNAPPY")'[/mw_shl_code]

cloudcat · 发表于 2016-8-1 12:01:33

qcbb001 发表于 2016-7-29 16:16
确实有这么个bug。楼主试试下面语句

[mw_shl_code=bash,true]sqoop import

谢谢您的回答，我是i香葱sql server2008 导入 hive ，直接用orc格式。我现在是先导入textfile文本格式的临时表，在存入orc格式的表

cloudcat · 发表于 2016-8-1 12:02:45

yhb007008 发表于 2016-7-29 15:08
1.环境
java version "1.8.0_65"
hadoop 2.7.2

谢谢楼主的回答，谢谢

图文精华

请问sqoop 如何把sqlserver 数据导入 hive，且用orc格式存储

相关帖子

已有(4)人评论

推荐 /2