搜索
搜 索
本版
文章
帖子
用户
图文精华
hadoop-2.6.0+zookeeper-3.4.6+hbase-1.0.0+hive-1.1.0完全分布 ...
首页
Portal
专题
BBS
面试
更多
登录
注册
用户组:游客
主题
帖子
云币
我的帖子
我的收藏
我的好友
我的勋章
设置
退出
导读
淘贴
博客
群组
社区VIP
APP下载
今日排行
本周排行
本周热帖
本月排行
本月热帖
会员排行
About云-梭伦科技
»
专题
›
技术学习(版主发帖区)
›
大数据学习
›
Sqoop
›
连载型
›
sqoop2系统入门之4:用户指南HDFS 连接器
1
1
3
分享
sqoop2系统入门之4:用户指南HDFS 连接器
sehriff
2017-8-28 00:19:07
发表于
连载型
[显示全部楼层]
阅读模式
关闭右栏
1
10975
问题导读
1.HDFS 连接器的用法?
2.如何配置分区器Partitioner?
3.如何配置抽取器Extractor?
4.如何配置加载器Loader?
5.如何配置销毁器Destroyers?
目录
用法
连接配置
FROM 作业配置
TO 作业配置
分区器Partitioner
抽取器Extractor
加载器Loader
销毁器Destroyers
上一篇:sqoop2系统入门之3:用户指南通用JDBC连接器
http://www.aboutyun.com/forum.php?mod=viewthread&tid=22563
1. 用法
通过创建连接器连接(link)和使用该连接的作业(job)来使用该HDFS连接器。
1.1. 配置连接(link)
配置连接(link)涉及的输入包括:
Input
Type
Description
Example
URI
String
可选的。HDFS 文件系统的URI。参考以下注意点。
hdfs://example.com:8020/
Configuration directory
String
可选的。集群配置目录的路径。
/etc/conf/hadoop
1.1.1. 注意点
另外指定的URI将会覆盖配置中声明的URI。
1.2. FROM 作业配置
FROM作业涉及的输入包括:
Input
Type
Description
Example
Input directory
String
必须的。连接器将会根据该HDFS路径查找文件。参考以下注意点。
/tmp/sqoop2/hdfs
Null value
String
可选的。从文件中抽取到的空值用该值代替。参考以下注意点。
N
Override null value
Boolean
可选的。连接器根据该值判断是否替换空值。参考以下注意点。
true
1.2.1. 注意点
Input directory 内的所有文件都会被抽取。
Null value 和override null value是配合使用的。如果override null value没有设置为true,那么在抽取数据时候就不会使用null value。
1.3. TO 作业配置
TO作业涉及的输入包括:
Input
Type
Description
Example
Output directory
String
必须的。连接器将会根据该HDFS路径查找文件。参考以下注意点。
/tmp/sqoop2/hdfs
Output format
Enum
可选。将数据输出时采用的数据格式。参考以下注意点。
CSV
Compression
Enum
可选。压缩类。参考以下注意点。
GZIP
Custom compression
String
可选。自定义的压缩类。完整类路径。
org.apache.sqoop.SqoopCompression
Null value
String
可选的。从文件中抽取到的空值用该值代替。参考以下注意点。
N
Override null value
Boolean
可选的。连接器根据该值判断是否替换空值。参考以下注意点。
true
Append mode
Boolean
可选的。追加到已有的文件目录。
true
1.3.1. 注意点
Output format 当前只支持CSV。
Compression 支持所有Hadoop 压缩类。.
Null value 和override null value是配合使用的。如果override null value没有设置为true,那么在抽取数据时候就不会使用null value。
2. 分区器Partitioner
HDFS 连接器的分区器根据指定的输入目录中所有文件的文件块总数将数据分区。文件块将会根据所在的节点和机架划分到不同的分片。
3. 抽取器(Extractor)
在抽取阶段,文件系统API被用于查询HDFS中的文件。使用的HDFS 集群通过以下来定义:
连接配置中的HDFS URI。
连接配置中的Hadoop 配置。
抽取框架所使用的Hadoop配置。
文件格式必须为CSV。CSV文件中的空值可以通过null value设置。例如:
[mw_shl_code=applescript,true]1,\N
2,null
3,NULL[/mw_shl_code]
在上面例子中,如果null value 设置为N ,那么第一行的NULL值就会被转译。
4.加载器(Loader)
在数据加载阶段,使用文件系统API写入HDFS 。新建的文件数等于运行的加载器数目。CSV文件中的空值可以通过null value设置。例如:
Id
Value
1
NULL
2
value
如果null value 设置为N , 那在HDFS中的数据就会像:
[mw_shl_code=applescript,true]1,\N
2,value[/mw_shl_code]
5. 销毁器(Destroyers)
HDFS TO作业的销毁器将所有新建的文件移动到适当的输出路径。
相关篇章
sqoop2系统入门之1:用户指南5分钟入门Demo
http://www.aboutyun.com/forum.php?mod=viewthread&tid=22549
sqoop2系统入门之2汇总:用户指南shell命令【可收藏备查】
http://www.aboutyun.com/forum.php?mod=viewthread&tid=22602
sqoop2系统入门之3:用户指南通用JDBC连接器
http://www.aboutyun.com/forum.php?mod=viewthread&tid=22563
sqoop2系统入门之4:用户指南HDFS 连接器
http://www.aboutyun.com/forum.php?mod=viewthread&tid=22564
sqoop2系统入门之5:用户指南Kafka 连接器
http://www.aboutyun.com/forum.php?mod=viewthread&tid=22565
sqoop2系统入门之6之开发指南篇:Sqoop Java 客户端API指南
http://www.aboutyun.com/forum.php?mod=viewthread&tid=22619
sqoop2系统入门之7之开发指南篇:编译Sqoop2源码
http://www.aboutyun.com/forum.php?mod=viewthread&tid=22647
sqoop2系统入门之8之开发指南篇:Sqoop 2开发环境配置
http://www.aboutyun.com/forum.php?mod=viewthread&tid=22659
sqoop2系统入门之9之管理员指南篇:Spoop Tool使用介绍
http://www.aboutyun.com/forum.php?mod=viewthread&tid=22698
sqoop2系统入门之10之管理员指南篇:Spoop2升级
http://www.aboutyun.com/forum.php?mod=viewthread&tid=22705
sqoop2系统入门之11之管理员指南篇:Sqoop安装
http://www.aboutyun.com/forum.php?mod=viewthread&tid=22709
本帖被以下淘专辑推荐:
·
sqoop2系统入门
|
主题: 12, 订阅: 1
回复
使用道具
举报
提升卡
置顶卡
沉默卡
喧嚣卡
变色卡
千斤顶
显身卡
已有(1)人评论
电梯直达
正序浏览
美丽天空
发表于 2017-8-29 09:08:16
感谢分享
回复
使用道具
举报
显身卡
还有一些帖子被系统自动隐藏,点此展开
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
本版积分规则
发表回复
回帖后跳转到最后一页
发表新帖
sehriff
中级会员
关注
13
主题
97
帖子
9
粉丝
TA的主题
spark官网机器学习翻译1:数据类型-基于RDD的API
2017-10-24
在PySpark中定制机器学习算法
2017-10-3
Apache Spark 2.2中基于成本的优化器(CBO)
2017-9-27
马士兵大数据_架构师
2017-9-20
IntelliJ IDEA Scala 插件2017.2版升级说明
2017-9-16
24小时热文
矩阵分析引论罗家洪(第四版)
互联网大厂年终福利曝光:看看别人家老板怎
像高手一样发言:七种常见工作场景的说话之
携程允许员工春节回乡办公2个月
数据治理实施方案
关闭
推荐
/2
中文版ChatGPT
1.无需魔法 2.提高编程效率 3.提高文档能力
查看 »
新手帮助
新手帮助:注册遇到问题,领取资源,加入铁粉群,不会使用搜索,如何获取积分等
查看 »
意见
反馈