搜索
搜 索
本版
文章
帖子
用户
图文精华
hadoop-2.6.0+zookeeper-3.4.6+hbase-1.0.0+hive-1.1.0完全分布 ...
首页
Portal
专题
BBS
面试
更多
登录
注册
用户组:游客
主题
帖子
云币
我的帖子
我的收藏
我的好友
我的勋章
设置
退出
导读
淘贴
博客
群组
社区VIP
APP下载
今日排行
本周排行
本周热帖
本月排行
本月热帖
会员排行
About云-梭伦科技
»
专题
›
交流区
›
技术交流
›
Spark
›
spark-sql 数据缺失
0
3
0
分享
spark-sql 数据缺失
cp87597
发表于 2016-2-16 19:11:34
[显示全部楼层]
只看大图
阅读模式
关闭右栏
3
11148
我使用spark sql做了一些简单的ETL,最后将数据输出到HDFS中,但是我发现输出的结果不完整,有的output是0B
我使用spark sql 的insert into 和 saveAsTextFile都出现了上述情况,我发现第一组并行的task输出都是0B,下面还有一些零星的也是0B
后来我在spark-shell中看了下DataFrame的行数,发现与预期行数不符,但是我再执行insert into 操作,数据居然完整了,我在查看行数,又正确了。后面我又做了一些试验,发现第一次运行的结果(插入操作,显示行数)都是错误的(数据不完整),但第二次的就对了(完整了,行时也正确),这是怎么回事啊,好烦人。
回复
使用道具
举报
提升卡
置顶卡
沉默卡
喧嚣卡
变色卡
千斤顶
显身卡
已有(3)人评论
电梯直达
正序浏览
when30
发表于 2016-2-16 21:13:16
是不是数据倾斜或则有的datanode坏掉了
回复
使用道具
举报
显身卡
wscl1213
发表于 2016-2-16 22:06:36
代表这些文件输出,但是输出失败了
第二次尝试,输出成功了。
可能有些因素影响了:这里只是举个例子,楼主根据自己的集群的实际情况思考下。
比如:
第一次运行内存暂用太大了,导致输出失败。
第二次可能运行的客户端变了,或则使用 的内存少了,就运行成功了。
回复
使用道具
举报
显身卡
bob007
发表于 2016-2-17 09:45:18
要么是输出失败,或则是任务失败,这个应该有错误日志,楼主可以看看
回复
使用道具
举报
显身卡
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
本版积分规则
发表回复
回帖后跳转到最后一页
发表新帖
cp87597
中级会员
关注
12
主题
42
帖子
3
粉丝
TA的主题
sparkSQL 错误输出
2016-2-18
spark-sql 数据缺失
2016-2-16
kerberos,web认证
2015-11-26
cdh+kerberos
2015-11-18
scala 数组_的用法
2015-10-15
24小时热文
幕后产品:打造突破式产品思维
像高手一样发言:七种常见工作场景的说话之
副业警钟,新型法律碰瓷发财方式:批量诉讼
Spark机器学习
Spark机器学习算法、源码及实战详解
关闭
推荐
/2
中文版ChatGPT
1.无需魔法 2.提高编程效率 3.提高文档能力
查看 »
新手帮助
新手帮助:注册遇到问题,领取资源,加入铁粉群,不会使用搜索,如何获取积分等
查看 »
意见
反馈