用户组:游客
日前,Databricks公司发布了一个Apache Spark主要版本的可用性。除了可用性、可移植性等几个新的特性外,本次发布还提供了对尚 ...
本帖最后由 不会飞的小凯凯 于 2015-12-18 22:36 编辑 问题导读: 1.Spark内核有什么特性? 2.什么叫做RDD? 3.DAG和Stag ...
本帖最后由 不会飞的小凯凯 于 2015-12-18 19:09 编辑 问题导读: 1.怎么样在winows环境下安装Spark? 2.怎么样安装IDE工 ...
RDD(Resilient Distributed Datasets) ,弹性分布式数据集, 是分布式内存的一个抽象概念,RDD提供了一种高度受限的共享内存模型 ...
本帖最后由 wuyufei 于 2015-12-7 16:54 编辑 问题导读: 1.输入数据与预期结构是什么? 2.如何进行二进制和多标签分类? 3 ...
问题导读 1.编译CDH Spark需要哪些步骤? 2.编译CDH Spark的命令是什么? 3.本文如何生成压缩包? 本文以Cl ...
本帖最后由 xuanxufeng 于 2015-12-2 17:08 编辑 问题导读 1.为什么说Spark 是对 MapReduce 模型的一种扩展? 2.mapre ...
问题导读 1、如何进行Input DStream创建的操作? 2、如何进行DStream操作? 3、如何进行K/V类型RDD转换操作? 一、Inp ...
问题导读 1.在我们调用spark API时,背后发生了什么呢? 2.RDD.id是在初始化时生成的,id代表什么? 3.rdd.collect()调 ...
问题导读 1.spark.shuffle.consolidateFiles是为了解决什么问题? 2.spark.shuffle.spill的作用是什么? 3.spark.local.dir默 ...
问题导读 1.SBT有哪些特性? 2.SBT构建的工程结构是什么样子的? 3.SBT有哪些命令? 4.如何导入Spark工程? 5.如何安装In ...
本帖最后由 pig2 于 2015-7-17 00:02 编辑 问题导读: 1、查看到底哪个spark job引起了这个批次的处理时间过长? 2、Job用了 ...
Apache Spark源码走读之1 -- Spark论文阅读笔记 Apache Spark源码走读之2 -- Job的提交与运行 Apache Spark源码走读 ...
本帖最后由 howtodown 于 2014-9-1 23:55 编辑 问题导读 1.你认为该如何学习spark? 2.你认为学习spark都需要掌握哪些内容? ...
...
此篇文章的基础,需要对hadoop mapreduce有一定的了解,否则此文章可能看不懂。可以参考 Mapreduce shuffle和排序 MapRe ...
本帖最后由 xioaxu790 于 2014-4-7 22:58 编辑 1、如何理解Spark Streaming构架 2、如何进行哪些方面上的性能调优
问题导读 1.Docker 1.9版本新增了哪些功能? 2.新版的Docker引擎中加入了哪些新的特性? 3.Compose在版本中新添了哪些加 ...
问题导读: 1.流式处理框架特征有哪些特征?2.流式处理框架技术需求有哪些?3.怎样把图片文件通过基于 Spark Streaming ...
问题导读 本文比较短,但是思路清晰 1.Scala开发使用eclipse如何开发? 2.如何安装Scala的Eclipse插件? 3.如何验证安装 ...
问题导读: 1.如何使用 Spark Streaming 流计算?2.如何监控 Kafka 和 Spark Streaming?3.Spark Streaming 有什么不足 ...
本帖最后由 nettman 于 2015-4-3 20:34 编辑 问题导读 1.Spark将中间结果保存在内存还是硬盘? 2.Spark什么情况下写入磁盘 ...
问题导读1.Apache Spark1.5 DataFrame有哪些变化?2.spark.sql.tungsten.enabled是什么参数?3.Spark内置的expression function ...
问题导读 1.Apache Spark 1.5性能到底能提升多少呢? 2.DataFrame API方面,实现了哪些新的接口? 3.ML里面增加了哪些新 ...
问题导读 1.本文如何用450万条维基百科词条的文档集训练一个话题模型? 2.在线变分预测是一种什么技术? 3.对Spark LDA算 ...
一、设置MAVEN_OPTS参数 在编译Spark的时候Maven需要很多内存,否则会出现类似下面的错误信息: [mw_shl_code=bash ...
本帖最后由 不会飞的小凯凯 于 2015-10-23 16:32 编辑 问题导读: 1.R语言是什么? 2.Spark和SparkR有什么区别? 3.SparkR ...
本帖最后由 nettman 于 2015-3-31 16:17 编辑 问题导读 1.GraphX提供了几种方式从RDD或者磁盘上的顶点和边集合构造图? 2.P ...
问题导读 1.编译spark源文件的过程中,如何防止内存不足? 2.spark如果没有自己hadoop或则hive版本对应的预构建版本,该如何 ...
本版积分规则 发表帖子
查看 »