用户组:游客
问题导读: 1.如何Spark任务运行属性? 2.如何配置运行需要的环境变量及运行参数? 简介 Spark的配置系统 ...
本帖最后由 醉半城 于 2017-9-11 20:32 编辑 问题导读: 1.SparkSubmit提交脚本是什么样? 2.SparkSubmit提交的参数内部怎么 ...
问题导读 1.通过什么途径,可以查看与spark兼容的组件版本? 2.如何获取pom文件? 3.pom文件中包含了哪些信息? 4.spark编 ...
问题导读: 1.启动命令是什么?有什么含义? 2.每次序列化时间、shuffle时间是多少? 3.executors的数量、block的数量各有多 ...
本帖最后由 pig2 于 2017-3-21 07:33 编辑 问题导读 1.为什么使用spark streaming? 2.什么是StreamingContext? 3.什么 ...
本帖最后由 pig2 于 2017-12-6 14:02 编辑 问题导读 1.你认为SparkContext的作用是什么? 2.SQLContext 和HiveContext的区 ...
问题导读 1.spark-submit各个参数的含义是什么? 2.集群启动都包含哪些脚本? 3.如何实现连接一个应用程序到集群中? ...
问题导读 1、什么是DStream转换? 2、什么是窗口计算? 3、怎样最有效的将发生数据到外部系统? 本文接前篇: Sp ...
问题导读 1、什么是Spark Streaming? 2、如何创建StreamingContext对象? 3、什么是高级源? 本文接前篇: Spar ...
问题导读 1.本文的场景是什么? 2.SparkSQL结合SparkStreaming,通过SQL实现实时计算数据统计需要做哪些准备? 3.SparkSQL ...
问题导读: 1.什么是推荐系统中的在线计算和离线计算,它们各自的优缺点是什么? 2.如何将离线分布式训练的模型直接用到在线 ...
本帖最后由 BGnv5 于 2019-6-30 09:55 编辑 问题导读: 1.调节资源以后,性能为什么会提升? 2.如何设置一个Spark Applica ...
问题导读 1.Receiver、Direct模式区别有哪些? 2.怎样将Receiver改造成Direct模式? 3.除了模式改造,还有哪些优化点? ...
本帖最后由 levycui 于 2019-6-19 20:43 编辑 问题导读: 1、SparkContext 如何创建过程? 2、如何理解Task 执行和回馈? 3 ...
本帖最后由 levycui 于 2019-6-19 19:54 编辑 问题导读: 1、如何理解RPC 网络通信抽象? 2、如何理解Spark 通信架构? 3、 ...
问题导读: 1.HashShuffleManager 运行原理是什么? 2.SortShuffleManager 运行机制及其原理是什么? 3.shuffle 相关参数如 ...
本帖最后由 a87758133 于 2019-6-13 21:02 编辑 问题导读: 1、基本的数据类型如何处理? 2、复杂的数据类型如何处理? ...
问题导读 1.Spark streaming产生小文件的的原因是什么? 2.如何从原理角度去解决小文件? 3.如何从外部解决小文件问题? ...
本帖最后由 BGnv5 于 2019-6-1 09:49 编辑 问题导读: 1.什么是Spark Shuffle,它的原理是什么? 2.Spark Shuffle的技术演 ...
问题导读 1.本文解决了什么问题? 2.在写入hbase的过程中遇到了什么问题? 3.本文解决问题的思路是什么? 需求 将HDF ...
问题导读: 1、如何使用spark进行文本数据预处理? 2、如何进行数据处理模型训练、保存和调用? 3、如何进行多分类模型训练和 ...
问题导读 1.HBase Connector是用来干什么的? 2.Catalog的作用是什么? 3.HBase Connector该如何使用? 在github上有一 ...
问题导读 1.Spark 中堆内内存是如何进行规划的?2.Spark 对堆内内存的管理的具体流程是怎样的?3.Spark 能否完全避免内存溢出 ...
本帖最后由 pig2 于 2014-4-4 14:40 编辑 (1) 准备工作 在正式介绍之前,先要以下软硬件准备: 软件准备: Eclipse Juno ...
问题导读 1.spark的执行原理包含哪些内容? 2.本文分享了哪些调优经验? 3.shuffle如何调优? 1:本文主讲的是client模 ...
问题导读 1.尽量用reduceByKey,不要用groupByKey,为什么? 2.reduceByKey和groupByKey区别与用法? 3.如何实现去重? ...
本帖最后由 pig2 于 2017-2-20 09:55 编辑 问题导读 1.spark有哪两个分支? 2.spark运行架构是什么? 3.spark包含哪四 ...
问题导读 1.什么是Spark MLLIB? 2.真正的生产机器学习部署涉及哪些任务? 3.如何使用Spark MLlib进行文本分类? 上 ...
问题导读 1.本文列出了Spark哪些属性? 2.spark.yarn.scheduler.heartbeat.interval-ms参数的作用是什么? 3.spark脱离本地 ...
问题导读 1.本文中处理的数据量是多少? 2.Spark如何处理这些数据的? 3.Spark处理数据,作者做了哪些分析和讲解? 问 ...
本版积分规则 发表帖子
查看 »