用户组:游客
最近在研究Spark SQL,Spark将Hbase表中数据读取出来后映射为Table,使用SparkSQL查询转换后写入Hbase时报一下错误。 Excepti ...
大家好 我起了spark thriftserver 用beeline 查询SQL. select count(*) from m2 where pt=2014114; ...
小弟刚接触Streaming,有一个需求是需要到Mysql获取一个表的数据,用来当Streaming程序Filter的条件, def GetMonNumber(sqlCon ...
作为内存计算模型,我们的内存很难达到T级别,而需要使用的日志数据很容易就到达这个量级,Spark如何处理这种情况? UPDATE ...
saveAsTextFile保存到HDFS后,会生成part-00000之类的文件,并且如果文件存在的话会覆盖,那么spark streaming这种周期执行的代 ...
RDD(Resilient Distributed Datasets) ,弹性分布式数据集, 是分布式内存的一个抽象概念,RDD提供了一种高度受限的共享内存模型 ...
我写了一个spark的小程序,用的是IDEA自带的打包功能,结果出现这种内存溢出错误:Error:Artifact 'xxx:jar': java.lang.OutOfMe ...
从调度方面讲,DAGSchedular主要管理提交job的Stage的划分,那么stage划分好之后该如何处理呢?我们知道每一个stage中有一 ...
take(num)会取出n条元素。 因为take是action所以会驱动前边依赖的stage和transfrom运行,我的疑问是他会驱动前边的rdd里所有 ...
我使用的spark 为spark Standalone 模式 集群跑着 每天有很多批处理任务, 我其中的配置如下: [*]export SPARK_LOG_DIR=$ ...
我之前测试验证的时候都是一个app把所有core都占用,现在我要很多个app同时跑,这样每个app占用的core就很少了。而且是这些app大 ...
在上一节中我们讲到了通过./spark-submit脚本运行Driver程序。./spark-submit脚本会调用SparkSubmit对象,在SparkSubmit中 ...
1、本地运行出错及解决办法 当运行如下命令时: [mw_shl_code=bash,true]./bin/spark-submit \ --class org.apache. ...
tachyon是开源社区中最近非常热门的技术,tachyon构建了一个基于内存的分布式文件系统,相对于传统的磁盘文件系统如HDFS, ...
HI 大家好 大家用SPARK分析数据,都是用SPARK SQL 从数据库 拿数据的吗?
前言:我的集群服务器是用户来维护,不能指望用户来通过ui来维护spark的稳定运行。所以我需要一个后台程序来监护管理spark的运行 ...
我有一个streaming 程序 跑在集群上,因为那个应用数据量小 , 我使用local模式, 发现提交程序后,每天都会挂掉, 看日志也没 ...
在pom文件中加入spark就报错。Error:scalac: error while loading , error in opening zip file Error:Module 'sparktest' prod ...
Tachyon是AmpLab的Li Haoyuan所开发的一个基于内存的分布式文件系统,出发点是作为AMPLAB的BDAS的一个组成部分 总体设计思想 ...
standalone模式,通过spark-submit先后提交了两个任务,发现第一个任务可以正常执行,第二个任务会一直等第一个任务结束后才会执 ...
Driver被加载后,何时成为可在web UI中看到的application程序呢? 当使用./spark-submit脚本提交Driver程序的时候,会调用Clien ...
spark streaming支持一个JavaStreamingContext接收多个socket源吗?我在代码中这样写: JavaReceiverInputDStream lines = jssc ...
在Spark集群搭建好之后,可以提交Application到集群中运行。如果有多个Application提交到集群中,那么集群如何调度运行不同的a ...
使用kafka+sparkstreaming(spark版本1.4.1),存到hdfs中时,按时间格式存储文件,我想要的结果是每一个批次存成一个文件, ...
我用sparkstreaming对数据库里的数据做分析,然后输出分析结果。 我之前测试验证都是用netcat输入查询条件,sparkstreamin ...
如图:1. 红色的矩形就是一个窗口,窗口hold的是一段时间内的数据流。2.这里面每一个time都是时间单元,在官方的例子中, ...
RDD之间的依赖形成一个有向无环图DAG,依赖关系的分析和判断由DAGSchedular负责。DAGSchedular根据DAG划分的结果,将一个作业划 ...
Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某些工作负载 ...
15/12/03 10:33:39 INFO scheduler.TaskSetManager: Ignoring task-finished event for 781.1 in stage 0.0 because task 781 ha ...
Akka 是一个用 Scala 编写的库,用于简化编写容错的、高可伸缩性的 Java 和 Scala 的 Actor 模型应用。它已经成功运用在电信行业 ...
本版积分规则 发表帖子
查看 »