-rw-r--r-- 1 work supergroup 31 2014-07-3119:52 /user/hive/warehouse/user/stat_date=20120802/000000_0
-rw-r--r-- 1 work supergroup 39 2014-07-3119:52 /user/hive/warehouse/user/stat_date=20120802/000001_0
复制代码
查看sampling数据:
hive>select*from user tablesample( bucket
1out of 2 on id);
Total MapReduce jobs = 1
4 18 mac 20120802
2 21 ljz 20120802
6 23 symbian 20120802
复制代码
tablesample是抽样语句,语法:TABLESAMPLE(BUCKETx OUT OF y)
y必须是table总bucket数的倍数或者因子。hive根据y的大小,决定抽样的比例。
例如,table总共分了64份,当y=32时,抽取(64/32=)2个bucket的数据,当y=128时,抽取(64/128=)1/2个bucket的数据。x表示从哪个bucket开始抽取。例如,table总bucket数为32,tablesample(bucket 3 out of 16),表示总共抽取(32/16=)2个bucket的数据,分别为第3个bucket和第(3+16=)19个bucket的数据。