求解,如何去除HDFS中一张数据表格中数据之间的分隔符?谢谢

查看数: 8837 | 评论数: 3 | 收藏 0
关灯 | 提示:支持键盘翻页<-左 右->
    组图打开中,请稍候......
lwq
发布时间: 2016-3-25 10:02

正文摘要:

现在hdfs中有一张从sqlserver导入进来的数据表格,如下图,如何将每个数据之间的逗号去掉,或者换成空格符也行,哪位大神会,帮帮忙吧,不胜感谢!

回复

atsky123 发表于 2016-3-25 10:31:27
mapreduce有map函数和reduce函数,你可以只写map函数。这里写下伪代码,楼主按照这个思想来就行了
map(参考)
{
第一步:读取hdfs文件
第二步:将逗号,换成空格
Str = Str.replaceAll(","," "); //将*换掉



}

关于读取的文章,其它楼主也可以自己找找
HDFS读文件过程分析:获取文件对应的Block列表
http://www.aboutyun.com/forum.php?mod=viewthread&tid=11363


lwq 发表于 2016-3-25 10:21:53
atsky123 发表于 2016-3-25 10:14
写个 的mapreduce,字符替换就行了。

能给具体说一下吗?不是很明白。。。谢谢
atsky123 发表于 2016-3-25 10:14:10
写个 的mapreduce,字符替换就行了。
关闭

推荐上一条 /2 下一条