分享

Sqoop处理Clob与Blob字段

[Author]: kwu

Sqoop处理Clob与Blob字段,在Oracle中Clob为大文本,Blob存储二进制文件。遇到这类字段导入hive或者hdfs需要特殊处理。

1、oracle中的测试表
[mw_shl_code=bash,true]CREATE TABLE
    T_LOB
    (
        A INTEGER,
        B CLOB,
        C BLOB
    )[/mw_shl_code]

测试数据
[mw_shl_code=sql,true]insert into T_LOB (A, B, C) values (1, 'clob测试',to_blob('3456'));[/mw_shl_code]


2、sqoop脚本
[mw_shl_code=bash,true]import
--append
--connect
jdbc:oracle:thin:@localhost:1521/orcl
--username
wuke
--password
Abcd1234
--table
BDC_TEST.T_LOB
--columns
"A,B,C"
--target-dir
/tmp/t_lob

-m
1[/mw_shl_code]

执行脚本

[mw_shl_code=bash,true]sqoop --options-file ./importHdfs.opt[/mw_shl_code]



3、查看生成的HDFS文件

1.png

可以看出,clob的字段是导入到hdfs上是正常显示文本,blob是二进制文件导出到hdfs上显示为16进制
16进制转换为string可采用如下方法,实际上通过移位操作来实现:
[mw_shl_code=java,true]package com.ganymede.test;

/**
* 十六进制的转换操作
* @author Ganymede
*
*/
public class Hex {

/**
* 用于建立十六进制字符的输出的小写字符数组
*/
private static final char[] DIGITS_LOWER = { '0', '1', '2', '3', '4', '5',
'6', '7', '8', '9', 'a', 'b', 'c', 'd', 'e', 'f' };

/**
* 用于建立十六进制字符的输出的大写字符数组
*/
private static final char[] DIGITS_UPPER = { '0', '1', '2', '3', '4', '5',
'6', '7', '8', '9', 'A', 'B', 'C', 'D', 'E', 'F' };

/**
* 将字节数组转换为十六进制字符数组
*
* @param data
* byte[]
* @return 十六进制char[]
*/
public static char[] encodeHex(byte[] data) {
return encodeHex(data, true);
}

/**
* 将字节数组转换为十六进制字符数组
*
* @param data
* byte[]
* @param toLowerCase
* <code>true</code> 传换成小写格式 , <code>false</code> 传换成大写格式
* @return 十六进制char[]
*/
public static char[] encodeHex(byte[] data, boolean toLowerCase) {
return encodeHex(data, toLowerCase ? DIGITS_LOWER : DIGITS_UPPER);
}

/**
* 将字节数组转换为十六进制字符数组
*
* @param data
* byte[]
* @param toDigits
* 用于控制输出的char[]
* @return 十六进制char[]
*/
protected static char[] encodeHex(byte[] data, char[] toDigits) {
int l = data.length;
char[] out = new char[l << 1];
// two characters form the hex value.
for (int i = 0, j = 0; i < l; i++) {
out[j++] = toDigits[(0xF0 & data) >>> 4];
out[j++] = toDigits[0x0F & data];
}
return out;
}

/**
* 将字节数组转换为十六进制字符串
*
* @param data
* byte[]
* @return 十六进制String
*/
public static String encodeHexStr(byte[] data) {
return encodeHexStr(data, true);
}

/**
* 将字节数组转换为十六进制字符串
*
* @param data
* byte[]
* @param toLowerCase
* <code>true</code> 传换成小写格式 , <code>false</code> 传换成大写格式
* @return 十六进制String
*/
public static String encodeHexStr(byte[] data, boolean toLowerCase) {
return encodeHexStr(data, toLowerCase ? DIGITS_LOWER : DIGITS_UPPER);
}

/**
* 将字节数组转换为十六进制字符串
*
* @param data
* byte[]
* @param toDigits
* 用于控制输出的char[]
* @return 十六进制String
*/
protected static String encodeHexStr(byte[] data, char[] toDigits) {
return new String(encodeHex(data, toDigits));
}

/**
* 将十六进制字符数组转换为字节数组
*
* @param data
* 十六进制char[]
* @return byte[]
* @throws RuntimeException
* 如果源十六进制字符数组是一个奇怪的长度,将抛出运行时异常
*/
public static byte[] decodeHex(char[] data) {

int len = data.length;

if ((len & 0x01) != 0) {
throw new RuntimeException("Odd number of characters.");
}

byte[] out = new byte[len >> 1];

// two characters form the hex value.
for (int i = 0, j = 0; j < len; i++) {
int f = toDigit(data[j], j) << 4;
j++;
f = f | toDigit(data[j], j);
j++;
out = (byte) (f & 0xFF);
}

return out;
}

/**
* 将十六进制字符转换成一个整数
*
* @param ch
* 十六进制char
* @param index
* 十六进制字符在字符数组中的位置
* @return 一个整数
* @throws RuntimeException
* 当ch不是一个合法的十六进制字符时,抛出运行时异常
*/
protected static int toDigit(char ch, int index) {
int digit = Character.digit(ch, 16);
if (digit == -1) {
throw new RuntimeException("Illegal hexadecimal character " + ch
+ " at index " + index);
}
return digit;
}

public static void main(String[] args) {
String srcStr = "待转换字符串";
String encodeStr = encodeHexStr(srcStr.getBytes());
String decodeStr = new String(decodeHex(encodeStr.toCharArray()));
System.out.println("转换前:" + srcStr);
System.out.println("转换后:" + encodeStr);
System.out.println("还原后:" + decodeStr);


System.out.println("---------------------------------------");
decodeStr = new String(decodeHex("3435363738390d0a626c6f62".toCharArray()));
System.out.println("还原后:" + decodeStr);
}

}[/mw_shl_code]


对于hive可以在入库前转换成string,或者直接入库后使用udf来转换














已有(3)人评论

跳转到指定楼层
hahaxixi 发表于 2015-6-29 09:37:11
不错,感谢分享~~~
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条