搜索
搜 索
本版
文章
帖子
用户
图文精华
hadoop-2.6.0+zookeeper-3.4.6+hbase-1.0.0+hive-1.1.0完全分布 ...
首页
Portal
专题
BBS
面试
更多
登录
注册
用户组:游客
主题
帖子
云币
我的帖子
我的收藏
我的好友
我的勋章
设置
退出
导读
博客
群组
今日排行
本周排行
本周热帖
本月排行
本月热帖
会员排行
About云
»
专题
›
交流区
›
技术交流
›
MapReduce
›
流式文件的处理
0
3
0
分享
流式文件的处理
zcfightings
发表于 2015-7-23 15:21:38
[显示全部楼层]
只看大图
阅读模式
关闭右栏
3
11557
需求:有一加密的流式文件 想使用分布式的方式加快解密(解密前是流式文件,解密后的数据是有格式的)。
疑惑:想用sequenceFileInputFormat 但查官方文档,只简单说sequencefile是自己指定key、value。现在没有什么思路。
方案: 求解决方案和提示。
回复
使用道具
举报
提升卡
置顶卡
沉默卡
喧嚣卡
变色卡
千斤顶
显身卡
已有(3)人评论
电梯直达
正序浏览
NEOGX
发表于 2015-7-23 15:52:55
只要会写mapreduce即可,这个格式自己指定即可。
例如下面:
参考:
新手指导,该如何在开发环境中,创建mapreduce程序
http://www.aboutyun.com/thread-7945-1-1.html
这个格式一行代码即可搞定。这个属于mapreduce内部原理,我们干涉不多。
重要的是map和reduce函数的实现。
更多格式参考
MapReduce的输入输出格式
回复
使用道具
举报
显身卡
zcfightings
发表于 2015-7-23 16:21:20
我个人理解数据格式 可能是 key1(value1的长度) value1, key2 value2......。总之 你得判断你得一个value 到哪儿截断
回复
使用道具
举报
显身卡
tang
发表于 2015-7-24 11:04:25
回复
使用道具
举报
显身卡
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
本版积分规则
发表回复
回帖后跳转到最后一页
发表新帖
zcfightings
中级会员
关注
21
主题
74
帖子
9
粉丝
TA的主题
HBase 扫描中出现数据重复
2019-3-19
预测hive所消耗资源
2017-8-29
spark thrift server的两个问题 求帮忙分析
2017-1-18
hiveserver2使用连接池的问题
2016-11-2
获取hive作业实体
2016-9-18
24小时热文
哈佛通识教育红皮书 (北大高等教育文库·大
代码精进之路:从码农到工匠
为什么面试难!一文帮我们看透本质,拿捏of
程序员薪资排名,AI位居榜首,平均年薪277
Django实战:Python Web典型模块与项目开发
关闭
推荐
/2
中文版ChatGPT
1.无需魔法 2.提高编程效率 3.提高文档能力
查看 »
新手帮助
新手帮助:注册遇到问题,领取资源,加入铁粉群,不会使用搜索,如何获取积分等
查看 »
意见
反馈