分享

求解,如何去除HDFS中一张数据表格中数据之间的分隔符?谢谢

lwq 发表于 2016-3-25 10:02:38 [显示全部楼层] 只看大图 回帖奖励 阅读模式 关闭右栏 3 8835
现在hdfs中有一张从sqlserver导入进来的数据表格,如下图,如何将每个数据之间的逗号去掉,或者换成空格符也行,哪位大神会,帮帮忙吧,不胜感谢! QQ截图20160325100058.png

已有(3)人评论

跳转到指定楼层
atsky123 发表于 2016-3-25 10:14:10
写个 的mapreduce,字符替换就行了。
回复

使用道具 举报

lwq 发表于 2016-3-25 10:21:53
atsky123 发表于 2016-3-25 10:14
写个 的mapreduce,字符替换就行了。

能给具体说一下吗?不是很明白。。。谢谢
回复

使用道具 举报

atsky123 发表于 2016-3-25 10:31:27
mapreduce有map函数和reduce函数,你可以只写map函数。这里写下伪代码,楼主按照这个思想来就行了
map(参考)
{
第一步:读取hdfs文件
第二步:将逗号,换成空格
Str = Str.replaceAll(","," "); //将*换掉



}

关于读取的文章,其它楼主也可以自己找找
HDFS读文件过程分析:获取文件对应的Block列表
http://www.aboutyun.com/forum.php?mod=viewthread&tid=11363


回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条