分享

sparkstreaming+hdfs 存hdfs文件名问题

本帖最后由 轩辕依梦Q 于 2015-9-8 13:26 编辑



使用kafka+sparkstreaming(spark版本1.4.1),存到hdfs中时,按时间格式存储文件,我想要的结果是每一个批次存成一个文件,一批次为一分钟,但结果是每一批次都被保存为一个目标,而且目录名的时间标志一直是job启动的时间,没有变动,而且目录下分为很多的文件。现贴出代码,小弟请各位大神指教

再描述一下问题:
问题1:如何让时间变动体现在文件名中,而不是以第一次的时间格式名
问题2:能否直接存储为一个文件,而不是一个目录,目录下多个文件。


spark streaming 代码:

sparkstreaming代码

sparkstreaming代码



存储的目录结构:

存储的目录

存储的目录


目录下的文件:

目录下的文件

目录下的文件


多谢!!

已有(7)人评论

跳转到指定楼层
tntzbzc 发表于 2015-9-8 14:46:24
楼主既然找到代码了,可以对他们重写
回复

使用道具 举报

轩辕依梦Q 发表于 2015-9-8 15:00:25
tntzbzc 发表于 2015-9-8 14:46
楼主既然找到代码了,可以对他们重写

能力有限啊
回复

使用道具 举报

xuanxufeng 发表于 2015-9-8 15:46:15
只要自己的代码会重写,spark也一样的。
直接继承重新定义下。然后打个包,安装就完毕了。

这有重写的,可能有所帮助。
http://www.aboutyun.com/blog-57-1792.html
回复

使用道具 举报

轩辕依梦Q 发表于 2015-9-8 16:42:11
xuanxufeng 发表于 2015-9-8 15:46
只要自己的代码会重写,spark也一样的。
直接继承重新定义下。然后打个包,安装就完毕了。

除了重新有其他办法么?你们是怎么使用的呢?
回复

使用道具 举报

xuanxufeng 发表于 2015-9-8 17:35:56
轩辕依梦Q 发表于 2015-9-8 16:42
除了重新有其他办法么?你们是怎么使用的呢?

改变有两种办法:
1.改变过程,导致结果改变
2.直接对结果改变。

上面是改变过程,这个行不通就改变结果。
就是对输出的内容,重新在处理一遍
回复

使用道具 举报

轩辕依梦Q 发表于 2015-10-20 10:11:24
换了一种存储方式,没有存成文件
回复

使用道具 举报

regan 发表于 2015-12-8 20:02:16
xuanxufeng 发表于 2015-9-8 17:35
改变有两种办法:
1.改变过程,导致结果改变
2.直接对结果改变。

怎样处理结果,能提供思路吗
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条