Spark-About云-梭伦科技-第17页

About云-梭伦科技»专题 › 交流区› 技术交流› Spark

Spark

收录了 595 篇文章 · 3 人关注

版块操作

关注本版 RSS订阅

发布新帖

新窗

Spark读取Hbase后转换重新写入Hbase其他表报错

最近在研究Spark SQL，Spark将Hbase表中数据读取出来后映射为Table，使用SparkSQL查询转换后写入Hbase时报一下错误。 Excepti ...

唐运 2014-12-30 2 53593
spark thriftserver 问题

大家好我起了spark thriftserver 用beeline 查询SQL. select count(*) from m2 where pt=2014114; ...

ab0412 2016-1-11 2 13841
求助，SparkSQL和Streaming结合程序出现的问题

小弟刚接触Streaming，有一个需求是需要到Mysql获取一个表的数据，用来当Streaming程序Filter的条件， def GetMonNumber(sqlCon ...

SingleDee 2016-1-8 2 11118
内存有限的情况下 Spark 如何处理 T 级别的数据？

作为内存计算模型，我们的内存很难达到T级别，而需要使用的日志数据很容易就到达这个量级，Spark如何处理这种情况？ UPDATE ...

arsenduan 2015-12-9 2 25494
spark streaming saveAsTextFile的问题

saveAsTextFile保存到HDFS后，会生成part-00000之类的文件，并且如果文件存在的话会覆盖，那么spark streaming这种周期执行的代 ...

Fortitude 2016-1-5 5 42447
探索Spark源码---RDD模型

RDD(Resilient Distributed Datasets) ,弹性分布式数据集，是分布式内存的一个抽象概念，RDD提供了一种高度受限的共享内存模型 ...

pig 2016-1-4 1 8991
用IDEA打包scala程序出现问题

我写了一个spark的小程序，用的是IDEA自带的打包功能，结果出现这种内存溢出错误：Error:Artifact 'xxx:jar': java.lang.OutOfMe ...

seraph50 2016-1-4 4 16570
探索Spark源码action触发作业提交（DAGSchedular,TaskSchedular,TaskSetManager）

从调度方面讲，DAGSchedular主要管理提交job的Stage的划分，那么stage划分好之后该如何处理呢？我们知道每一个stage中有一 ...

regan 2015-12-28 1 12751
关于take（num）的一些疑问

take（num）会取出n条元素。因为take是action所以会驱动前边依赖的stage和transfrom运行，我的疑问是他会驱动前边的rdd里所有 ...

邓立辉 2015-12-26 7 11579
spark 缓存清理

我使用的spark 为spark Standalone 模式集群跑着每天有很多批处理任务，我其中的配置如下： [*]export SPARK_LOG_DIR=$ ...

JME 2015-12-18 5 24499
sprakstreaming多个app同时运行资源问题

我之前测试验证的时候都是一个app把所有core都占用，现在我要很多个app同时跑，这样每个app占用的core就很少了。而且是这些app大 ...

dlh 2015-12-18 11 18553
探索Spark源码---Driver程序如何与Spark集群建立联系？

在上一节中我们讲到了通过./spark-submit脚本运行Driver程序。./spark-submit脚本会调用SparkSubmit对象，在SparkSubmit中 ...

regan 2015-12-16 3 7815
spark on yarn运行产生缺jar包错误及解决办法【分享】

1、本地运行出错及解决办法当运行如下命令时： [mw_shl_code=bash,true]./bin/spark-submit \ --class org.apache. ...

arsenduan 2015-12-22 1 11719
Spark中使用tachyon内存存储架构实战

tachyon是开源社区中最近非常热门的技术，tachyon构建了一个基于内存的分布式文件系统，相对于传统的磁盘文件系统如HDFS， ...

regan 2015-12-21 2 10373
spark 导数据问题

HI 大家好大家用SPARK分析数据，都是用SPARK SQL 从数据库拿数据的吗？

ab0412 2015-12-22 1 7222
spark streaming的维护方面的问题

前言：我的集群服务器是用户来维护，不能指望用户来通过ui来维护spark的稳定运行。所以我需要一个后台程序来监护管理spark的运行 ...

dlh 2015-12-21 4 7973
spark-streaming local mode

我有一个streaming 程序跑在集群上，因为那个应用数据量小，我使用local模式，发现提交程序后，每天都会挂掉，看日志也没 ...

JME 2015-12-18 4 10192
spark 运行报错Error:scalac: error while loading <root>,

在pom文件中加入spark就报错。Error:scalac: error while loading , error in opening zip file Error:Module 'sparktest' prod ...

hery 2015-12-18 3 34246
Tachyon架构分析和现存问题讨论

Tachyon是AmpLab的Li Haoyuan所开发的一个基于内存的分布式文件系统，出发点是作为AMPLAB的BDAS的一个组成部分总体设计思想 ...

regan 2015-12-10 2 7230
spark多任务执行的问题

standalone模式，通过spark-submit先后提交了两个任务，发现第一个任务可以正常执行，第二个任务会一直等第一个任务结束后才会执 ...

Fortitude 2015-12-15 5 19448
探索Spark源码---Client提交的Driver程序的调度

Driver被加载后，何时成为可在web UI中看到的application程序呢？当使用./spark-submit脚本提交Driver程序的时候，会调用Clien ...

regan 2015-12-15 0 8359
spark streaming接收多个tcp源

spark streaming支持一个JavaStreamingContext接收多个socket源吗？我在代码中这样写： JavaReceiverInputDStream lines = jssc ...

Fortitude 2015-12-14 4 11538
探索Spark源码---spark集群中多个Driver提交集群调度（Standalone client模式提交）

在Spark集群搭建好之后，可以提交Application到集群中运行。如果有多个Application提交到集群中，那么集群如何调度运行不同的a ...

regan 2015-12-9 1 19122
sparkstreaming+hdfs 存hdfs文件名问题

使用kafka+sparkstreaming（spark版本1.4.1）,存到hdfs中时，按时间格式存储文件，我想要的结果是每一个批次存成一个文件， ...

轩辕依梦Q 2015-9-8 7 18338
sparkstreaming结果怎么和传入的数据关联上？

我用sparkstreaming对数据库里的数据做分析，然后输出分析结果。我之前测试验证都是用netcat输入查询条件，sparkstreamin ...

dlh 2015-12-7 10 24892
Spark Streaming的窗口操作

如图：1. 红色的矩形就是一个窗口，窗口hold的是一段时间内的数据流。2.这里面每一个time都是时间单元，在官方的例子中， ...

xuanxufeng 2015-12-8 0 10405
探索Spark源码---DAG图

RDD之间的依赖形成一个有向无环图DAG，依赖关系的分析和判断由DAGSchedular负责。DAGSchedular根据DAG划分的结果，将一个作业划 ...

regan 2015-12-8 5 16739
探索Spark源码---sparkContext

Spark 是一种与 Hadoop 相似的开源集群计算环境，但是两者之间还存在一些不同之处，这些有用的不同之处使 Spark 在某些工作负载 ...

regan 2015-12-6 5 4826
spark 为什么慢，map时候就非常慢，各帮忙啊

15/12/03 10:33:39 INFO scheduler.TaskSetManager: Ignoring task-finished event for 781.1 in stage 0.0 because task 781 ha ...

ananan36 2015-12-3 5 21356
Akka中的actor模型,使用Akka搭建一个简单的分布式环境

Akka 是一个用 Scala 编写的库，用于简化编写容错的、高可伸缩性的 Java 和 Scala 的 Actor 模型应用。它已经成功运用在电信行业 ...

regan 2015-12-4 0 3461