搜索
搜 索
本版
文章
帖子
用户
图文精华
hadoop-2.6.0+zookeeper-3.4.6+hbase-1.0.0+hive-1.1.0完全分布 ...
首页
Portal
专题
BBS
面试
更多
登录
注册
用户组:游客
主题
帖子
云币
我的帖子
我的收藏
我的好友
我的勋章
设置
退出
导读
淘贴
博客
群组
社区VIP
APP下载
今日排行
本周排行
本周热帖
本月排行
本月热帖
会员排行
About云-梭伦科技
»
专题
›
交流区
›
技术交流
›
Hive
›
hive导入数据时怎么匹配分隔符问题
0
2
0
分享
hive导入数据时怎么匹配分隔符问题
fullmetal
发表于 2015-7-23 15:19:35
[显示全部楼层]
只看大图
阅读模式
关闭右栏
2
45485
hive
的内部分隔符是“
/001
”,即在load data时,如果被读取的文件中,属性之间分隔符为'\001',是可以被hive识别并load到表格中的。
但是,
在一些日志文件中,属性之间存在特殊分隔符,比如
像“
@$_$@
”这样的分隔符是不能被支持。
解决办法:
a)
通过
SerDe(serialize/deserialize) 进行正则项匹配
b
)
自定义
outputformat
和
inputformat
问题:
我想请问方法b中这个inputformat该怎么改写呢??
网上的教程都比较简略,比如下图。我想知道的是,该用java继承哪些类和接口?然后改写哪些方法呢?
改写inputformat
回复
使用道具
举报
提升卡
置顶卡
沉默卡
喧嚣卡
变色卡
千斤顶
显身卡
已有(2)人评论
电梯直达
正序浏览
NEOGX
发表于 2015-7-23 15:39:51
虽然不太清楚,但是应该通过环境就能知道引用了是哪个包和类以及接口。
在没有环境的情况下,我们也是知道的。
比如定义一个类
class A extends inputformat
{}
输出也是一样的。
楼主可以验证下
回复
使用道具
举报
显身卡
fullmetal
发表于 2015-7-24 09:33:26
问题是我按截图中来,新建了一个继承inputformat的类,但是里面居然只有nextkeyvalue方法,没有next方法。我的hive版本是0.98的,不知道是不是版本的关系。
回复
使用道具
举报
显身卡
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
本版积分规则
发表回复
回帖后跳转到最后一页
发表新帖
fullmetal
注册会员
关注
5
主题
30
帖子
3
粉丝
TA的主题
关于hbase的jar包运行?
2015-8-7
cloudera官网发布的hadoop跟一般的hadoop有什么区别?
2015-7-28
hive导入数据时怎么匹配分隔符问题
2015-7-23
hadoop处理体检数据
2015-6-25
新手帖
2015-6-24
24小时热文
矩阵分析引论罗家洪(第四版)
互联网大厂年终福利曝光:看看别人家老板怎
像高手一样发言:七种常见工作场景的说话之
携程允许员工春节回乡办公2个月
数据治理实施方案
关闭
推荐
/2
中文版ChatGPT
1.无需魔法 2.提高编程效率 3.提高文档能力
查看 »
新手帮助
新手帮助:注册遇到问题,领取资源,加入铁粉群,不会使用搜索,如何获取积分等
查看 »
意见
反馈