用户组:游客
因为我需要排序,所以我的rdd设置了10个分区来加快效率,在rdd.saveAsTextFile的时候,输出结果是10个文件。 请问在输出的时候 ...
UTF-8 2.1.0 2.10 2.6.0 org.apache.spark spark-core_${scala.version} ${spark.vers ...
配置:[mw_shl_code=shell,true] yarn.nodemanager.aux-services.mapreduce.shuffle.class org.apache.hadoop.mapred.S ...
本地eclipse调试的时候,我setMaster("local")不报错,但是SparkConf().setMaster("spark://192.168.86.133:7077")报错如下: ...
请教一下各位大神:我的数据是(k,v),k是byte[],我想根据k分区,随机抽一定数量的k,然后其他k来跟他们比较,看看放在哪个分 ...
spark从hdfs上读取parquet文件,我是这么实现的val rdd = context.sql("xxxxx").orderBy("xx").rdd rdd.saveAsTextFile("xxxxx") ...
背景需求: 基于实时的用户点击日志,计算出当天的pv、uv。 pv很好说了....UV这种需要按照用户唯一标识去重的如何计算呢? ...
为什么任务跑在集群上后本地的JVM还会占用掉我2个G的内存?
如题,写了一段spark kmeans的代码,发现能预测新的数据的分类,但是我还想打印原始数据的分类,求解答 package com.marstor. ...
源数据:(“人名”,年龄) val rdd = sc.parallelize(Array[(String,Int)](("Michael",29),("Andy",30),("Justin",19), ("Tom" ...
本地模式可以顺利执行,但是将项目打包之后就会上面错误,第一次发帖求助,求大神指导!!!!
Exception in thread "main" org.apache.spark.SparkException: Task not serializable at org.apache.spark.util.Clos ...
希望从高可用的HDFS上读取数据,如下图: 我的配置文件如下: 这样书写,在本地跑的时候,会出错,表示无法识别jokerworld ...
如下图。前四个任务都没有inputsize为0,但是却有shufflewrite,请问为什么?
最后谈一谈如何通过Spark UI获取程序运行信息,熟练应用这些反馈能够为相关优化快速指明方向。下面简单介绍这些页面的各自的主 ...
我在使用spark-sql 的 时候,有个问题一直困扰我.spark-sql 为什么不能像hive一样,自定义永久函数.而是需要每次都加载本地的udf j ...
Spark 概述Apache Spark是一个快速的、通用的集群计算系统。它提供了基于Java、Scala、Python和R语言的高级API,和一个支持通常 ...
各位大侠好! 本人正式scala插件安装,新建maven项目,选scala骨架 scala-archetype-simple 构建完报两个错误: ...
如上图,我每次sbin/stop-all.sh 停掉spark服务,重启服务sbin/start-all.sh服务都会出现一些服务停不掉。 明明一台机器一 ...
看了书感觉还是有点不懂
spark streaming程序运行一段时间后,出了异常导致程序挂了,如何自动启动streaming程序。
最近使用cdh的spark on yarn,除了cdh中给出的spark配置之外,打算增加spark相关配置。如 spark.driver.cores 等。在Apache版本 ...
提交应用在集群上的时候,报了下面的错误: [mw_shl_code=java,true]17/04/14 18:12:34 ERROR server.TransportRequestHandler: ...
2017-04-17 12:49:22 [ DataStreamer for file /historyserverforSpark/app-20170417124915-0005.inprogress block BP-19173524 ...
本帖最后由 feilong 于 2017-4-14 13:17 编辑 问题导读 1.Capacity Scheduler 是什么? 2.Capacity Scheduler相关参数有 ...
我想在Spark集群之外的一台机器上配置Spark的客户端,提交应用都在这台客户端上提交。我把集群中Spark的tar包拉下来放到客户端的 ...
本帖最后由 hero1122 于 2017-4-10 16:47 编辑 问题导读: 1.Mesos-dispacher架构及其存在的问题是什么? 2.Marathon+Docker ...
想请教下textfile这个函数是在driver上执行还是会被分配到task中执行? 如果在wordcount.scala中加入这一段 val startti ...
如图:
我运行了一个Spark streaming程序,这个应用跑得好好的,然后就听了,然后多次重新启动都启动不了。 [mw_shl_code=java,true]17 ...
本版积分规则 发表帖子
查看 »