用户组:游客
环境 : win10 win10下 spark2.2 scala 2.11.8 自己下载解压的sbt 0.13.11 试了网上各种方法 ...
Spark新手,工作中用到spark streaming,使用流计算对kafka中topic数据进行获取并治理,过程中遇到一些小问题,希望大侠帮忙解答 ...
2017-07-31 16:28:08,364 INFO org.apache.spark.executor.CoarseGrainedExecutorBackend: Got assigned task 5 2017-07-31 16: ...
hadoop-2.8.1,hive-2.3.0 (metadata放在mysql),启动、执行都很正常 但是spark执行报错,编译的spark 2.2.0,带上了 -Phive ...
拜托!拜托!哪位大神能帮我解决如下所述问题: 我的远程shell连接不上虚拟机了,但我看了看防火墙关着呢,ssh服务正常(并且我还 ...
使用intelJIDEA 编译任何程序都报错 Error:Module 'web_data' production: sbt.compiler.CompileFailed 不清楚哪里出问题 ...
我提交的命令为 spark-submit --master yarn-cluster --driver-class-path /home/hadoop/mysql-connector-java-5.1.30.jar --ja ...
val jdbcDF = spark.read.format("jdbc").option("url","jdbc:sqlserver://192.168.1.21;username=sa;password=yishidb;database ...
我运行spark的spark.example.SparkPi例子,用yarn-cluster提交是可以运行的,但用yarn-client提交,日志一直打印[mw_shl_code=ja ...
hi,早上sbt打包遇到这种问题。 object Logging is not a member of package org.apache.spark 上网一看,spark 2. ...
Spark写了一个统计分析的例子,分析网站日志的受欢迎访问的字页面排名。现在运行报错。 java.lang.NoSuchMethodError: scala ...
求助各位大神: 有没有可能用spark 把表从sqlserver拉到hbase并且自定义rowkey?或者工具。。多谢。。。
我用Spark中RowMatrix的columnSimilarities计算相似度,它返回的是An n x n sparse upper-triangular matrix of cosine similari ...
基本环境:hive是2.1.1,spark是2.1.0,hadoop是2.7.3出错的scala程序如图所示: web显示就执行到第二行qdRDD=rdd.map....... ...
我现在有5台机器,要求我调整原来的参数以适应现在的集群,以前集群的机器比较多,,,,, 新手小白查了参数的含义以后也完全 ...
弱弱请教一下各位大神。。。这是什么情况。 运行spark官网上的一个streaming 程序 用spark-submit提交上去就卡死在那, ...
请问各位大神这是什么情况。。 从网上看了一个例子 用spark向hbase写数据 抛出的异常:java.lang.IllegalArgumentExce ...
数据源:一份1300个字段的数据,主键是 uid,后面是各个属性,命名是 x1,x2,x3...x1229 处理结果:想要得到,每个UID 的x1-x1 ...
上面是sample() 三个参数的介绍,然后我用如下的例子进行测试: rdd1 = sc.parallelize([1,2,3,4,5]) rdd1.sample(True,0.5,1) ...
本帖最后由 J20_果农 于 2017-6-29 10:24 编辑 如题: 比如有个数据从hdfs抽取解析到hive或者从hive数据统计汇总的作业,大家 ...
spark2.10.6 用newHadoopFile来读取parquet文件 val rdd = sc.newHadoopFile(path,classOf],classOf[Void],classOf[String]) ...
错误截图如下:
从kafka里面取数据到sparkStreaming里面,然后再把数据保存到数据中 关键点,不是每个数据都需要创建连接,只需要为每个分区创 ...
现在代码如下: [mw_shl_code=scala,true] import java.sql.{DriverManager, PreparedStatement, Connection} import org ...
请大神指教:parquet文件读出来之后,要经过处理排序。很奇怪的是,dataframe = context.sql(xxx),这个dataframe.foreach(printl ...
启动thriftserver报错,以下是官方指导http://spark.apache.org/docs/latest/sql-programming-guide.html#distributed-sql-engin ...
无比小白的。。求指方向 完全是hadoop和spark的新手,被要求用sparkSQL语句实现查找分位数,无从下手, 求问spark怎么实现呢
问题导读: 1.Spark Streaming 与 Storm 对适用场景分别是什么?2.怎样自定义 Partitioner 以实现日志文件快速存储到HDFS ...
正常情况下DataFrame类应该在这个包下:org.apache.spark.sql.DataFrame ,在eclipse中写java发现此包中没有DataFrame类。 ...
我想使用spark rdd做到像terasort那样先取样分区再排序的功能,写了好久效率总是很慢,请大神指教下吧
本版积分规则 发表帖子
查看 »