搜索
搜 索
本版
文章
帖子
用户
图文精华
hadoop-2.6.0+zookeeper-3.4.6+hbase-1.0.0+hive-1.1.0完全分布 ...
首页
Portal
专题
BBS
面试
更多
登录
注册
用户组:游客
主题
帖子
云币
我的帖子
我的收藏
我的好友
我的勋章
设置
退出
导读
淘贴
博客
群组
社区VIP
APP下载
今日排行
本周排行
本周热帖
本月排行
本月热帖
会员排行
About云-梭伦科技
»
专题
›
交流区
›
技术交流
›
Spark
›
疑问解答
›
spark 怎么控制数输出文件个个数
0
2
1
分享
spark 怎么控制数输出文件个个数
scala
2015-8-7 00:20:11
发表于
疑问解答
[显示全部楼层]
阅读模式
关闭右栏
2
52643
大家好, spark rdd reducer 后,要保存为文件,如
saveAsTextFiles,如何控制输出文件的大小或者个数呢? 大家有什么好的效率比较高的方法吗?repartition 效率太慢了?
谢谢!
回复
使用道具
举报
提升卡
置顶卡
沉默卡
喧嚣卡
变色卡
千斤顶
显身卡
已有(2)人评论
电梯直达
正序浏览
NEOGX
发表于 2015-8-7 07:48:15
因为Spark内部写文件方式其实调用的都是Hadoop的函数,所以我们也可以通过Spark实现多文件输出。Spark内部没有多文件输出的函数供大家直接调用,我们自己实现这个功能也是很简单的。我们可以通过调用saveAsHadoopFile函数并自定义一个OutputFormat类即可
更多参考
Spark如何实现多文件输出
回复
使用道具
举报
显身卡
scala
发表于 2015-8-7 10:43:56
谢谢,我用用看!
回复
使用道具
举报
显身卡
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
本版积分规则
发表回复
回帖后跳转到最后一页
发表新帖
scala
中级会员
关注
4
主题
60
帖子
8
粉丝
TA的主题
Hcatlog 读取parquet 存储格式的表,MR 不能正确获取字段的值
2015-9-26
spark 怎么控制数输出文件个个数
2015-8-7
redis 键的设计,以及效率问题
2015-4-7
一个奇怪的scala 语句
2015-3-12
24小时热文
Spark机器学习
Spark机器学习算法、源码及实战详解
《深度实践Spark机器学习(吴茂贵)》高清
《Spark机器学习第2版》高清中文PDF
像高手一样发言:七种常见工作场景的说话之
关闭
推荐
/2
中文版ChatGPT
1.无需魔法 2.提高编程效率 3.提高文档能力
查看 »
新手帮助
新手帮助:注册遇到问题,领取资源,加入铁粉群,不会使用搜索,如何获取积分等
查看 »
意见
反馈