图文精华

hadoop-2.6.0+zookeeper-3.4.6+hbase-1.0.0+hive-1.1.0完全分布 ...

About云»专题 › 交流区 › 技术交流 › Spark › sparkstreaming+hdfs 存hdfs文件名问题

0
7
1

分享

sparkstreaming+hdfs 存hdfs文件名问题

轩辕依梦Q 发表于 2015-9-8 13:26:56 [显示全部楼层] 只看大图回帖奖励

回帖奖励

阅读模式关闭右栏 7 18351

本帖最后由轩辕依梦Q 于 2015-9-8 13:26 编辑

使用kafka+sparkstreaming（spark版本1.4.1）,存到hdfs中时，按时间格式存储文件，我想要的结果是每一个批次存成一个文件，一批次为一分钟，但结果是每一批次都被保存为一个目标，而且目录名的时间标志一直是job启动的时间，没有变动，而且目录下分为很多的文件。现贴出代码，小弟请各位大神指教

再描述一下问题：
问题1：如何让时间变动体现在文件名中，而不是以第一次的时间格式名
问题2：能否直接存储为一个文件，而不是一个目录，目录下多个文件。

spark streaming 代码：

sparkstreaming代码

sparkstreaming代码

存储的目录结构：

存储的目录

存储的目录

目录下的文件：

目录下的文件

目录下的文件

多谢！！

回复

使用道具举报

自定义广告语

已有(7)人评论

电梯直达

跳转到指定楼层

正序浏览

tntzbzc 发表于 2015-9-8 14:46:24

楼主既然找到代码了，可以对他们重写

回复

使用道具举报

轩辕依梦Q 发表于 2015-9-8 15:00:25

tntzbzc 发表于 2015-9-8 14:46
楼主既然找到代码了，可以对他们重写

能力有限啊

回复

使用道具举报

xuanxufeng 发表于 2015-9-8 15:46:15

只要自己的代码会重写，spark也一样的。
直接继承重新定义下。然后打个包，安装就完毕了。

这有重写的，可能有所帮助。
http://www.aboutyun.com/blog-57-1792.html

回复

使用道具举报

轩辕依梦Q 发表于 2015-9-8 16:42:11

xuanxufeng 发表于 2015-9-8 15:46
只要自己的代码会重写，spark也一样的。
直接继承重新定义下。然后打个包，安装就完毕了。

除了重新有其他办法么？你们是怎么使用的呢？

回复

使用道具举报

xuanxufeng 发表于 2015-9-8 17:35:56

轩辕依梦Q 发表于 2015-9-8 16:42
除了重新有其他办法么？你们是怎么使用的呢？

改变有两种办法：
1.改变过程，导致结果改变
2.直接对结果改变。

上面是改变过程，这个行不通就改变结果。
就是对输出的内容，重新在处理一遍

回复

使用道具举报

轩辕依梦Q 发表于 2015-10-20 10:11:24

换了一种存储方式，没有存成文件

回复

使用道具举报

regan 发表于 2015-12-8 20:02:16

xuanxufeng 发表于 2015-9-8 17:35
改变有两种办法：
1.改变过程，导致结果改变
2.直接对结果改变。

怎样处理结果，能提供思路吗

回复

使用道具举报

发表新帖

轩辕依梦Q

高级会员

关注

8

主题
207

帖子
14

粉丝

TA的主题

24小时热文

推荐 /2

关于我们· 联系我们· 加入我们· 小黑屋· 合作伙伴

Copyright © 2001-2025 About云 Powered by Discuz! X3.4 Licensed Discuz Team.

简书 / 京ICP备2020039040号简书网举报电话：021-34700000

意见
反馈