方案探讨 - Spark-About云-梭伦科技

About云-梭伦科技»专题 › 交流区› 技术交流› Spark

Spark

收录了 595 篇文章 · 3 人关注

版块操作

关注本版 RSS订阅

发布新帖

新窗

隐藏置顶帖 Hadoop3.3新版本发布【整合了腾讯云】

问题导读 1.Hadoop3.3支持JDK哪个版本？ 2.SCM是什么？ 3.YARN应用程序做了哪些改进？ 4.整合腾讯云实现了什么文件系统？ ...

pig2 2020-7-29 6 9699
spark查询hive异常

感觉是超时被中断了，每次都是耗时240000ms后报错，请各位大神指导！

一曲离殇 2022-4-1 2 1616
Spark大数据分析源码解析与实例详解

内容简介本书基于Spark 2.3.x、Spark 2.4.x系列版本，采用“理论+实践”的形式编写。全书共有90个实例，1个完整项目。第1 ...

admin 2021-11-8 0 1561
新书发布：深入理解分布式事务

内容简介本书的广度与深度兼备、理论与实战兼顾的分布式事务专著，它从基础知识、解决方案、原理分析、源码实现、工程实战5个 ...

阿飞 2021-11-2 0 1342
Spark为何使用Netty通信框架替代Akka

本帖最后由 PeersLee 于 2017-3-1 14:38 编辑问题导读： 1. spark 如何在1.6.0之后使用Netty替代了Akka？ 2. Spark Net ...

PeersLee 2017-3-1 2 55478
Spark性能调优(五):缓存与Checkpoint

1.怎么设置RDD缓存？2.RDD缓存有哪些策略？ 3.Checkpoint和Cache的区别有哪些？ Spark程序执行的特性，即延迟执 ...

regan 2019-12-9 1 4341
Spark性能调优（六）：数据本地性

1.什么是数据本地性？2.数据本地性有哪些策略？数据本地性指的是数据与执行的代码的远近程度。基于数据与执行的代 ...

regan 2019-12-9 1 4622
spark排序以后写入单个文件

val freq = model.freqItemsets.withColumn("rate", col("freq") / lit(count)) freq.orderBy(org.apache.spark.sql. ...

ighack 2020-12-9 0 2459
Spark算子总结

本帖最后由 linux_oracle 于 2020-12-4 15:52 编辑一.RDD创建1.从集合创建 1.1 parallelize 1.2 makerdd 2.从外部创 ...

linux_oracle 2020-12-4 0 2234
Spark streaming 消费数据延迟

各位大佬早上好，有个问题想咨询一下，我现在做实时数据流处理，用flume进行数据采集，然后将采集的数据放到kafka，然后在用spar ...

xiaobaiyang 2018-8-19 2 11830
SparkStreaming与flume的整合问题

SparkStreaming与flume的整合问题[急，在线等！！！]各个版本信息： spark2.0.2 flume1.7 sbt部分依赖 libraryDependencies + ...

fengfengda 2017-9-18 9 11740
spark history server页面显示时间错误请教

如上题，我晚上有四个计划任务，分别是凌晨一点与凌晨两点执行，但是在spark-histroy-server的监控上的时间是错的，怎么调 ...

lanyangkj 2017-3-17 7 13572
（偏业务）针对跨天去重的计算如何做？

场景：每天跑一部分分析数据，计算一项业务的人数。但是最终查询的时候，是多天一起查的，这个时候就涉及对人数的去重。 ...

xingoo 2017-2-9 17 21981
Spark性能优化(八):Shuffle调优

1.为什么会产生Shuffle?2.如何进行Shuffle调优？ 3.Shuffle调优最佳实践？在Spark程序中，Shuffle是性能的 ...

regan 2019-12-16 0 5800
pyspark streaming TaskCompletionListenerException: refCnt: 0, decrement: 1

pyspark streaming 消费kafka的时候一直报这个错误，查了好多资料也不知道怎么解决，希望大神帮我看看，非常感谢。 [mw_shl_c ...

希孟100 2019-12-13 2 4059
Spark性能调优（四）：广播大变量

1.广播为什么能提升性能？2.什么样的情景下需要广播？ 3.广播可能会遇到哪些问题？有时在开发过程中，会遇 ...

regan 2019-11-28 0 5912
Spark性能优化（一）：并行度优化

1.如何设置Spark程序的并行度？ 2.并行度和分区数的关系？ 3.如何正确设置RDD分区数？4.分区数设置的最佳实践？ ...

regan 2019-11-22 1 6509
压榨Spark程序性能的八大原则

编写Spark程序需要注意哪些基本的原则？遇到性能瓶颈如何优化？ 1. 准则一：从同一个数据源尽量只创建一个RDD ...

regan 2019-11-21 0 3038
探索Spark源码---在Spark中Job是并行执行的还是串行执行的？

我们知道，再spark中每一个提交的job，在划分好stage,由taskSetManager管理taskSet的生命周期，发送给满足计算的worker节点上进 ...

regan 2015-12-9 4 30556
sparkstreaming 读取kafka日志数据，如何根据日志时间进行统计

sparkstreaming 读取kafka日志数据，窗口处理为1分钟，日志数据自带时间戳，想根据日志时间戳进行分钟级别的数据统计，这个怎么 ...

iot-lee 2019-7-29 6 7952
sparkstreaming读取kafka支持event Time（日志业务时间）吗

sparkstreaming 读取kafka日志数据，窗口处理为1分钟，日志数据自带时间戳，想根据日志时间戳进行分钟级别的数据统计，这个怎么 ...

iot-lee 2019-7-26 2 6756
spark streaming 把spark.streaming.concurrentJobs设置成2就报错

报如下错误 16/03/07 14:59:27 INFO BlockManagerInfo: Added broadcast_7_piece0 in memory on 2.2.2.30:53524 (size: 2.0 KB, ...

邓立辉 2016-3-7 6 22388
Spark读Hive表慢？

Hi，路过的大神我用Spark 1.6 去读一个Hive表，一天的数据：1.1T左右。 scala代码如下： [mw_shl_code=scala,true]val sql ...

Danny_nd4du 2019-6-3 3 8402
Spark streaming 拉取mysql数据库表问题

最近在验证spark streaming 读取mysql库表的测试。下面是我的代码@Slf4j public class StreamingDemo { private static ...

xiaobaiyang 2019-6-3 1 4201
求解 sparksql 得出结果后遍历将结果放入 hashmap 为什么放不进去

[mw_shl_code=java,true]public class GetRank { public static void rank(String stuID,ArrayList list){ HashMa ...

o13674976542 2019-5-20 8 6097
sparksql 访问hive 怎么控制权限

hiveserver2有基于sql based 权限控制，metasore 没有权限控制 sparksql 访问hive 是通过hive的hcatlog 然后访问metastore服务 ...

半杯水 2019-4-19 1 5810
从术语到Spark，10篇必读大数据学习资源

本文给想进入大数据领域的朋友提供了一系列的资源，由浅入深，比如“需要了解的51条大数据术语”、“学习python的四个理由”、 ...

梦蝶大数据 2019-4-4 0 4587
spark生成HFile bulkload到hbase 延伸二

各位大神，新问题来了。。 Caused by: java.lang.ClassCastException: cannot assign instance of scala.collection.immuta ...

remarkzhao 2018-3-14 17 15410
求助spark异常Job aborted due to stage failure: Task serialization failed

使用scala写的spark任务，基本流程是从kafka读取信息，然后根据条件到elasticsearch中进行检索，最后整理入库ORIENTDB 每一步单 ...

Smile鹏鹏 2019-1-19 2 17356
spark-shell 如何在运行时选择parquet压缩方式

RT 用的spark2.4 默认parquet压缩为snappy，我想在shell启动后动态调整压缩方式请问大佬们如何解决。。

Tesla 2019-1-7 3 8753
Spark2.3/2.4可以直接使用hive2/3的元数据吗，是否需要重新编译

RT 我想搭建一个HADOOP3.0.X+HIVE2.X/3.X+SPARK2.4的环境请问是否需要对SPARK2.4的源码进行编译，以便于支持HIVE2/3

Tesla 2018-12-5 4 9859