用户组:游客
问题导读 1.Hadoop3.3支持JDK哪个版本? 2.SCM是什么? 3.YARN应用程序做了哪些改进? 4.整合腾讯云实现了什么文件系统? ...
感觉是超时被中断了,每次都是耗时240000ms后报错,请各位大神指导!
内容简介 本书基于Spark 2.3.x、Spark 2.4.x系列版本,采用“理论+实践”的形式编写。全书共有90个实例,1个完整项目。 第1 ...
内容简介 本书的广度与深度兼备、理论与实战兼顾的分布式事务专著,它从基础知识、解决方案、原理分析、源码实现、工程实战5个 ...
本帖最后由 PeersLee 于 2017-3-1 14:38 编辑 问题导读: 1. spark 如何在1.6.0之后使用Netty替代了Akka? 2. Spark Net ...
1.怎么设置RDD缓存?2.RDD缓存有哪些策略? 3.Checkpoint和Cache的区别有哪些? Spark程序执行的特性,即延迟执 ...
1.什么是数据本地性?2.数据本地性有哪些策略? 数据本地性指的是数据与执行的代码的远近程度。基于数据与执行的代 ...
val freq = model.freqItemsets.withColumn("rate", col("freq") / lit(count)) freq.orderBy(org.apache.spark.sql. ...
本帖最后由 linux_oracle 于 2020-12-4 15:52 编辑 一.RDD创建1.从集合创建 1.1 parallelize 1.2 makerdd 2.从外部创 ...
各位大佬早上好,有个问题想咨询一下,我现在做实时数据流处理,用flume进行数据采集,然后将采集的数据放到kafka,然后在用spar ...
SparkStreaming与flume的整合问题[急,在线等!!!]各个版本信息: spark2.0.2 flume1.7 sbt部分依赖 libraryDependencies + ...
如上题,我晚上有四个计划任务,分别是凌晨一点与凌晨两点执行,但是在spark-histroy-server的监控上的时间是错的,怎么调 ...
场景: 每天跑一部分分析数据,计算一项业务的人数。 但是最终查询的时候,是多天一起查的,这个时候就涉及对人数的去重。 ...
1.为什么会产生Shuffle?2.如何进行Shuffle调优? 3.Shuffle调优最佳实践? 在Spark程序中,Shuffle是性能的 ...
pyspark streaming 消费kafka的时候一直报这个错误,查了好多资料也不知道怎么解决,希望大神帮我看看,非常感谢。 [mw_shl_c ...
1.广播为什么能提升性能?2.什么样的情景下需要广播? 3.广播可能会遇到哪些问题? 有时在开发过程中,会遇 ...
1.如何设置Spark程序的并行度? 2.并行度和分区数的关系? 3.如何正确设置RDD分区数?4.分区数设置的最佳实践? ...
编写Spark程序需要注意哪些基本的原则? 遇到性能瓶颈如何优化? 1. 准则一:从同一个数据源尽量只创建一个RDD ...
我们知道,再spark中每一个提交的job,在划分好stage,由taskSetManager管理taskSet的生命周期,发送给满足计算的worker节点上进 ...
sparkstreaming 读取kafka日志数据,窗口处理为1分钟,日志数据自带时间戳,想根据日志时间戳进行分钟级别的数据统计,这个怎么 ...
报如下错误 16/03/07 14:59:27 INFO BlockManagerInfo: Added broadcast_7_piece0 in memory on 2.2.2.30:53524 (size: 2.0 KB, ...
Hi,路过的大神 我用Spark 1.6 去读一个Hive表,一天的数据:1.1T左右。 scala代码如下: [mw_shl_code=scala,true]val sql ...
最近在验证spark streaming 读取mysql库表的测试。下面是我的代码@Slf4j public class StreamingDemo { private static ...
[mw_shl_code=java,true]public class GetRank { public static void rank(String stuID,ArrayList list){ HashMa ...
hiveserver2有基于sql based 权限控制,metasore 没有权限控制 sparksql 访问hive 是通过hive的hcatlog 然后访问metastore服务 ...
本文给想进入大数据领域的朋友提供了一系列的资源,由浅入深,比如“需要了解的51条大数据术语”、“学习python的四个理由”、 ...
各位大神,新问题来了。。 Caused by: java.lang.ClassCastException: cannot assign instance of scala.collection.immuta ...
使用scala写的spark任务,基本流程是从kafka读取信息,然后根据条件到elasticsearch中进行检索,最后整理入库ORIENTDB 每一步单 ...
RT 用的spark2.4 默认parquet压缩为snappy,我想在shell启动后动态调整压缩方式 请问大佬们 如何解决。。
RT 我想搭建一个HADOOP3.0.X+HIVE2.X/3.X+SPARK2.4的环境 请问是否需要对SPARK2.4的源码进行编译,以便于支持HIVE2/3
本版积分规则 发表帖子
查看 »