用户组:游客
**** 本内容被作者隐藏 ****
有没有看到过spark中的ShuffieMemoeyManager这个shuffle内存管理的类。
业务场景描述: 我现在有一个这样的需求,我们有一张表大概有300万行数据,但是频繁有页面的多条件查询(大概有十多个 ...
今天无意中看到一个关于spark+zookeeper的部署方案,来解决spark的高可用问题。 看样子zookeeper还是很强大呀,啥都能结合。 ...
读取的过程是首先按照普通额文本文件进行读取,然后通过opencsv的jar包进行转换,通过对每行进行读取,生成string数组。 好 ...
大家好,我是spark新人,有问题想向大家请教~ 小白我最近在做实时报文的解码、处理与分析的工作,因为看中了spark str ...
项目需求:我有一个spark的计算服务器,多个用户不停的向我提交任务,服务器计算结果返回给客户,如何让这些任务有序,高效的运 ...
有没有实现别的jobserver,git上那个还需要改写自己的jar,自己的jar太大了,还不容易拆分。
求教有一些新的算法可以研究吗,自己是想用来做论文研究,一般的工程行就算了,不知道有没有大神了解的哈
问题导读 1.KafkaUtils.createStream有什么优点和缺点? 2.KafkaUtils.createStream如何实现监控offset? 3.如何实现offset ...
想增加个新的调度算法,模仿FIFO,FAIR算法,求教思路或者类似源码,多谢了
在spark streaming程序中,使用redis做缓存处理。程序运行几天后redis报错如下,redis是使用pool获取连接。[mw_shl_code=java,tr ...
首先说明,这个问题在Yarn模式和standalone下都出现了,Spark版本1.6.3 我采用的是默认的日志配置,也就是: 但是我发现 ...
Spark1.3,运行SparkStreaming的时候提示错误,运行Spark-SQL正常 运行环境:Spark1.3+Hadoop2.6.0+JDK1.8 运行官方的Stre ...
spark-submit --class main.scala.UserPlatformCount.PlatformInfoCounter --master spark://192.168.54.11:7077 --executor-me ...
sparksql各种数据源的测试: 大致的有json文件parquet文件,和常用的文件,jdbc等 代码: 一般过程: 第一步创建: ...
谁有炼数成金 第六周及其以后的视频,淘宝上买的从第六周开始视频都播放不了了。或者推荐其它spark 机器学习的视频,有实例讲解 ...
Spark配置&启动脚本分析 我们主要关注3类文件,配置文件,启动脚本文件以及自带shell。 1 文件概览 conf/ ├── docker.p ...
最近要做大数据平台下的视频图像处理,不知道Spark计算框架可以对视频图像数据处理吗?与MapReduce区别大吗?
我配置spark metrics csv。有个文件内入如下; t,count,max,mean,min,stddev,p50,p75,p95,p98,p99,p999 1480931392,0,0,0.0000 ...
local模式下用idea直接运行或者打成jar包都可以运行,但是用standalone cluster提交就会出现类不存在问题,如下截图,请大神指导 ...
最近闲着无聊从网上下载了一个去年叫流行的2000W开房数据,数据格式如下: 对其中一个文件进行解析,解析的时候发现gender那 ...
现在有个项目要求: 需要每隔五秒提交一个作业,处理传入spark集群最近的1000条数据,所以这里经过streaming传入的数据必须要先 ...
安装好了oracle jdk1.8 spark1.6 及anaconda2 也设置好了环境变量: export JAVA_HOME=/usr/java/jdk1.8.0_101 export PATH=$ ...
使用spark streaming有个困惑,我现在是在虚拟机上运行,一旦命令窗口被关闭或者电脑因断电等原因异常关闭,程序便终止运行。请 ...
大家好,请问Spark 2里,是否类似pandas的groupby函数,达到split-apply-combine的效果。简单的说,是 DataFrame.groupby(column ...
今天在cloudera上部署了spark on YARN,查看spark的状态,发现Gateway全部是灰色,而且都是“不适用”的状态,在网上搜了一下, ...
flume监控文件夹,当有新文件上传进去之后将之发送给streaming处理。想把每次数据的接入条数和大小,及处理时间输出出来。使用me ...
standalone模式提交: ./bin/spark-submit --class org.apache.spark.examples.mllib.KMeansExample --master spark://master:7 ...
数据仓库数据现在是用hive impala跑的,Sparksql跑的数据会生成很多小文件,甚至是空文件。如果要控制得人为的干预控制。这样的 ...
本版积分规则 发表帖子
查看 »