Spark 实时计算整合案例

查看数: 12491 | 评论数: 10 | 收藏 1
关灯 | 提示:支持键盘翻页<-左 右->
    组图打开中,请稍候......
发布时间: 2017-10-4 14:56

正文摘要:

本帖最后由 PeersLee 于 2017-10-4 15:00 编辑 问题导读: 1. 如果将 Storm 替换为 Spark 那么业务实现流程是什么? 2. 如何实现该业务逻辑? 解决方案: 1.概述   最近有同学问道,除了使用 S ...

回复

liuyou2036 发表于 2020-7-17 09:04:45
scala需要补充一下
ledasion 发表于 2017-10-9 10:36:48
yht 发表于 2017-10-8 13:13
嗯嗯 早上群里看到了 十分感谢等下就拜读下



将rdd保存成 parquet格式,可以指定 mode为 append,可以将多个batch数据写入到一个文件
美丽天空 发表于 2017-10-9 00:18:07
感谢分享
yht 发表于 2017-10-8 13:13:01
einhep 发表于 2017-10-7 18:14
这篇文章有介绍的,楼主可以尝试下。
用Hadoop的FileSystem实现在已有目录下用一个文件保存Spark数据
h ...

嗯嗯 早上群里看到了 十分感谢等下就拜读下
einhep 发表于 2017-10-7 18:14:02
yht 发表于 2017-10-6 09:59
这种方式多个partition会聚合成一个输出,但是对于多个batch每次都saveasfile 貌似不行。。每个batch都会 ...

这篇文章有介绍的,楼主可以尝试下。
用Hadoop的FileSystem实现在已有目录下用一个文件保存Spark数据
http://www.aboutyun.com/forum.php?mod=viewthread&tid=22855



yht 发表于 2017-10-6 09:59:05
desehawk 发表于 2017-10-6 08:23
序列化应该是封装了。产生细碎文件,spark应该有设置的保存为一个文件。
[mw_shl_code=scala,true]rddx. ...

这种方式多个partition会聚合成一个输出,但是对于多个batch每次都saveasfile 貌似不行。。每个batch都会保存为一个文件
desehawk 发表于 2017-10-6 08:23:35
yht 发表于 2017-10-5 12:44
关键是在实现过程中需要注意的一些问题,比如对象的序列化问题 这个代码体现哪里呢。。。。spark的RDD运算 ...
关键是在实现过程中需要注意的一些问题,比如对象的序列化问题 这个代码体现哪里呢。。。。spark的RDD运算确实比storm逻辑实现能力强大很多。不过两者实时性还是感觉有区别,一个batch 一个一条一条处理。前两天也在做类似的操作,用sparkStream 入平台HDFS但是发现出现大量细碎文件(我每个batch设置5秒),请问spark stream下有米方便的方法让batch追加到同一个文件。还是自己要去写文件操作?
序列化应该是封装了。产生细碎文件,spark应该有设置的保存为一个文件。
[mw_shl_code=scala,true]rddx.repartition(1).saveAsTextFile("test/test.txt")
rddx.coalesce(1).saveAsTextFile("test/test.txt")[/mw_shl_code]


美丽天空 发表于 2017-10-5 23:03:02
感谢分享
yht 发表于 2017-10-5 12:44:07
关键是在实现过程中需要注意的一些问题,比如对象的序列化问题 这个代码体现哪里呢。。。。spark的RDD运算确实比storm逻辑实现能力强大很多。不过两者实时性还是感觉有区别,一个batch 一个一条一条处理。前两天也在做类似的操作,用sparkStream 入平台HDFS但是发现出现大量细碎文件(我每个batch设置5秒),请问spark stream下有米方便的方法让batch追加到同一个文件。还是自己要去写文件操作?
关闭

推荐上一条 /2 下一条