图文精华

hadoop-2.6.0+zookeeper-3.4.6+hbase-1.0.0+hive-1.1.0完全分布 ...

About云-梭伦科技»专题 › 交流区 › 技术交流 › Spark › 异常错误› spark读取parquet文件问题

0
3
0

分享

spark读取parquet文件问题

macWang 2017-6-15 10:34:45 发表于异常错误 [显示全部楼层] 回帖奖励

回帖奖励

阅读模式关闭右栏 3 8377

请大神指教：parquet文件读出来之后，要经过处理排序。很奇怪的是，dataframe = context.sql(xxx),这个dataframe.foreach(println)可以看到结果，但是做其他处理比如：dataframe.foreach{line => Splitter.on("\t").split(line) }的时候就报错：task not serializable。如果dataframe.collect(),又会因为文件太大而报buffer overflow。
我的parquet大概700M左右
这俩问题网上找找也没搞懂，求大神指点下

回复

使用道具举报

自定义广告语

已有(3)人评论

电梯直达

跳转到指定楼层

正序浏览

desehawk 发表于 2017-6-15 14:01:52

很多人都遇到过这个问题。
这是因为变量定义的问题。变量的定义和使用最好在一个地方，就不会出现序列化问题了。
可参考
不能序列化解决方法 org.apache.spark.sparkException:Task not serializable

回复

使用道具举报

macWang 发表于 2017-6-15 15:30:52

desehawk 发表于 2017-6-15 14:01
很多人都遇到过这个问题。
这是因为变量定义的问题。变量的定义和使用最好在一个地方，就不会出现序列化问 ...

谢谢。

回复

使用道具举报

ledasion 发表于 2017-7-14 11:17:49

本帖最后由 ledasion 于 2017-7-14 11:19 编辑

主要是 Split 类是不支持序列化的，可以试一试这样写，但是这个操作不会返回任何结果
dataframe.foreach{line =>line.split("\t") }

回复

使用道具举报

发表新帖

macWang

新手上路

关注

14

主题
38

帖子
4

粉丝

TA的主题

24小时热文

推荐 /2

关于我们· 联系我们· 加入我们· 小黑屋· 合作伙伴

Copyright © 2001-2024 About云-梭伦科技 Powered by Discuz! X3.4 Licensed Discuz Team.

简书 / 京ICP备2020039040号简书网举报电话：021-34700000

意见
反馈