Spark-About云-梭伦科技

About云-梭伦科技»专题 › 交流区› 技术交流› Spark

Spark

收录了 595 篇文章 · 3 人关注

版块操作

关注本版 RSS订阅

发布新帖

新窗

隐藏置顶帖 Hadoop3.3新版本发布【整合了腾讯云】

问题导读 1.Hadoop3.3支持JDK哪个版本？ 2.SCM是什么？ 3.YARN应用程序做了哪些改进？ 4.整合腾讯云实现了什么文件系统？ ...

pig2 2020-7-29 6 9699
炼数成金spark 无密码版

http://pan.baidu.com/s/1kToXSl5 **** 本内容被作者隐藏 ****

x5136160 2015-5-2 132 147467
Spark 1.X 大数据平台V2 无密码版

**** 本内容被作者隐藏 ****

x5136160 2015-5-2 42 65072
用Spark读写Hbase出现Task not serializable

写了一个从Hbase中读数据处理后再保存回Hbase的程序，但是运行会出现Task not serializable报错代码如下： [mw_shl_code=scal ...

chimes298 2016-2-29 10 34979
intellij idea开发的spark应用spark-submit提交正常运行，直接在idea提交有问题

有两个集群，一个部署在阿里云，一个部署在三台虚拟机上：在虚拟机上的：spark-sbumit提交和idea直接提交到集群都可以正常运行 ...

ltne 2016-11-10 24 27052
import org.apache.spark.SparkContext._ 这条语句没有被引用

Error:scalac: bad symbolic reference. A signature in SparkContext.class refers to term hadoop in package org.apache whi ...

海滩发红 2017-3-15 15 37246
Spark Streaming中的ssc.textFileStream()，获取不到数据

通过Spark Streaming获取不到HDFS上面的数据， val conf = new SparkConf().setMaster("local").setAppName("RDDTest"); v ...

guxingyu 2016-3-3 12 62390
（偏业务）针对跨天去重的计算如何做？

场景：每天跑一部分分析数据，计算一项业务的人数。但是最终查询的时候，是多天一起查的，这个时候就涉及对人数的去重。 ...

xingoo 2017-2-9 17 21981
spark-sql 小文件问题

我在使用spark-sql 的时候,有个问题一直困扰我.spark-sql 为什么不能像hive一样,自定义永久函数.而是需要每次都加载本地的udf j ...

JME 2015-4-7 12 105666
【已解决】有木有spark对hbase进行增删改的例子呀

如题，在网上看到了一个scala版本的例子，但是scala没接触过，看起来很吃力，希望各位大大能给个Java版的例子，不 ...

高帝斯法则 2014-10-15 17 89416
【求助】Spark如果在写入多个HBase表中

【求助】Spark如果在写入多个HBase表中，最近项目需要用到Spark Streaming，在研究写入HBase时，单表OK。但是写入多表没有成功 ...

唐运 2015-3-22 11 85177
worker连不上master，已困4天。。。

SSH 可以互相无密码登陆，ping也能ping通。但是worker就是连不上master vanxd@master:~/i/Spark/spark-1.3.1-bin-hadoop2.6/s ...

l206xd 2015-6-2 16 65550
Spark Scala急求

怎们用Scala 编写一个通过时间找到对应的ip..........,然后按时间排序

逆光之处是快乐 2017-11-24 9 4690
spark-shell yarn-client模式启动异常问题

spark-shell yarn-client模式启动总是出现异常。运行环境如下： spark1.3 hadoop2.6 HA jdk1.8.0_31 spark-env.sh ...

cookeem 2015-3-31 12 260477
SparkStreaming运行提示错误，求救

Spark1.3，运行SparkStreaming的时候提示错误，运行Spark-SQL正常运行环境：Spark1.3+Hadoop2.6.0+JDK1.8 运行官方的Stre ...

cookeem 2015-3-31 12 153664
Spark Streaming中读取本地文件，无法获取数据

/** * Created by Administrator on 2016/9/24 0024. */ package com.keduo import java.util.Properties import o ...

txknick 2016-10-22 18 44121
sparksql 可以修改map数吗

sparksql 可以修改map数吗

ananan36 2015-12-9 7 21836
键值对rdd求value最大值

源数据：（“人名”，年龄） val rdd = sc.parallelize(Array[(String,Int)](("Michael",29),("Andy",30),("Justin",19), ("Tom" ...

一颗银杏树 2017-5-15 12 27318
SparkSession Error while instantiating 'org.apache.spark.sql.hive.HiveSession...

[mw_shl_code=java,true]val spark = SparkSession.builder().appName(this.getClass.getSimpleName) .master(master). ...

zstu 2018-5-21 16 22503
求问怎么设置sparksql读取hive的数据库

从网上找了几篇说法一一试了都没有用，不知道是不是帖子比较久远的原因我的hive是2.1.1，spark是2.1.0，hadoop是2.7.3 求详细 ...

yangyixin 2017-7-7 19 36288
sparksql多数据源透明访问

说在前面的话：几年前我做过银行项目，那会使用IBM的datastage这个产品，只要拖拖拽拽就可以实现多数据源的表关联取数 ...

zhuqitian 2017-8-16 3 8769
spark任务在spark-shell上能跑，但是在spark-submit上报错

请大神，帮我看看这个问题， 1.我自己写的WordCount在本地能跑，在spark-shell上能跑，但是在spark-submit上报错 2.排除scala ...

小小布衣 2015-1-8 11 147744
Spark为何使用Netty通信框架替代Akka

本帖最后由 PeersLee 于 2017-3-1 14:38 编辑问题导读： 1. spark 如何在1.6.0之后使用Netty替代了Akka？ 2. Spark Net ...

PeersLee 2017-3-1 2 55483
如何利用Spark Streaming实现UV（有状态的）统计

背景需求: 基于实时的用户点击日志，计算出当天的pv、uv。 pv很好说了....UV这种需要按照用户唯一标识去重的如何计算呢？ ...

xingoo 2017-5-9 10 33325
如何通过spark的RDD的转化去做数据清洗？

如题，我想将如下数据格式的数据源通过spark做数据转换： id, ip, version ：有效数据 ...

liuzhixin137 2016-5-25 9 41737
启动spark报错，求解决

[hadoop@hadoop001 bin]$ ./spark-shell Welcome to ____ __ / __/__ ___ _____/ /__ _\ \/ ...

丹青穆怀 2017-3-7 16 13142
Spark可以对视频图像数据进行处理吗？

最近要做大数据平台下的视频图像处理，不知道Spark计算框架可以对视频图像数据处理吗？与MapReduce区别大吗？

volcano 2015-3-22 7 39491
spark查询不了hive的orc格式的表

hive上的表t2，信息如下： spark-sql> desc formatted t2; OK 16/09/05 09:58:57 WARN LazyStruct: Extra bytes detected at ...

linbowei 2016-9-5 9 37986
spark streaming 是否可以按照不是时间片而是数据量处理

现在有个项目要求：需要每隔五秒提交一个作业，处理传入spark集群最近的1000条数据，所以这里经过streaming传入的数据必须要先 ...

ltne 2016-11-22 6 11342
SparkSql会生成很多的小文件，怎么解决哦？

SparkSql运行后，会生成很多小文件200个task就生成200个文件，有什么好办法解决？补充内容 (2016-11-14 03:55): package mai ...

玉溪 2016-11-13 6 30005
Spark DataFrame show

val rdd = sc.textFile("..").map(x => x.split(",")).map(x => (x(0), x(1).toLong)) val df = rdd.toDF df.show df.cache ...

zstu 2018-1-16 7 6341