Spark-About云-梭伦科技-第3页

About云-梭伦科技»专题 › 交流区› 技术交流› Spark

Spark

收录了 595 篇文章 · 3 人关注

版块操作

关注本版 RSS订阅

发布新帖

新窗

Structured Streaming Kafka Offset

hi，想问一下大家有用过Structured Streaming消费kafka数据吗？它能自己管理kafka offset吗？

zstu 2018-6-28 4 8565
sparksql利用ConfigFactory获取配置文件

1. 获取配置文件中的配置1.1. 简述在实际的开发中，工程中的一些配置会放在classpath下的配置文件中，然后在程序代码中，会对配 ...

qq824203453 2018-6-26 0 4401
各位老师，请问如何使用Scala计算微积分

各位老师，我在intellij idea中添加了spark插件，使用Scala语言开发spark程序，请问在编程的时候怎么用Scala计算微积分呢？需不 ...

1601365 2018-6-22 2 7619
spring和sparksql

大家有用过spring和sparksql一块用吗？我从github上找了一个demo（https://github.com/Zhuinden/spring-spark-example），打成ja ...

zstu 2018-6-13 9 10004
cpu core的理解？

学习streaming 时看见这么一段话，如图这样的意思是每个节点不需要给两个CPU core？那这样说，我这样配的虚拟机是 ...

SuperDove 2017-3-10 5 11088
请教，基于用户浏览情况如何计算用户相似度

近日有一个需求：读取HBase数据库的用户行为数据表，根据用户的浏览书籍数据，计算用户相似度，然后根据用户相似度进 ...

听太阳说话 2018-6-5 4 11070
关于LOF(局部异常因子)的问题,请教各位大神，感激不尽！

请问各位叔叔阿姨大哥大姐，怎么在spark中实现LOF(局部异常因子)的计算？，我在网上看到的是“new LOF()”，通过导入操作import ...

1601365 2018-6-2 4 6550
在Spark中怎么实现对一个二维数组的读与写

在spark编程中，遇到了一个问题，需要对一个二维数组进行读写操作，那么怎么才能实现像广播变量和累加器类似的功能呢？

星语心愿 2018-5-25 5 10950
求问怎么设置sparksql读取hive的数据库

从网上找了几篇说法一一试了都没有用，不知道是不是帖子比较久远的原因我的hive是2.1.1，spark是2.1.0，hadoop是2.7.3 求详细 ...

yangyixin 2017-7-7 19 36288
在集群中，spark从hdfs中是怎么加快读取数据的，另外spark分区在集群中是怎么分布的

在集群中，spark从hdfs中是怎么加快读取数据的？另外spark分区在集群中是怎么分布的？ 1、spark从hdfs中读取数据是从各个节点读 ...

星语心愿 2018-5-24 2 13676
如何通过代码统计spark在shuffle阶段所消耗的时间

现在有一个问题，就是统计shuffle阶段消耗的时间占程序运行总时间的百分比，可是怎么通过代码实现统计shuffle阶段消耗的时间呢？ ...

星语心愿 2018-5-22 5 7447
SparkSession Error while instantiating 'org.apache.spark.sql.hive.HiveSession...

[mw_shl_code=java,true]val spark = SparkSession.builder().appName(this.getClass.getSimpleName) .master(master). ...

zstu 2018-5-21 16 22503
SparkSql thriftserver

我用spark 的start-thriftserver.sh脚本启动Thrift服务，但用beeline登录hiveserver2登录不了，试了一些用户但还是登录不了。

zstu 2018-5-21 5 5155
如何关掉Cloudera quickStart-vm-5.13里面不需要的服务

下载好了vmware版的cloudera-quickstart-vm-5.13.0-0，解压后，使用虚拟机打开cloudera-quickstart-vm-5.13.0-0-vmware.vmx，然 ...

星语心愿 2018-5-6 3 10640
hadoop安装时配置core-site.xml文件时候，出现如下问题。

[root@localhost hadoop]# source core-site.xml bash: core-site.xml: line 1: syntax error near unexpected token `newline ...

哈喽啊 2016-9-13 3 14927
pyspark 如何使用自定义的python程序和其他工具库

自己编写了一个python程序，或者有一些python工具库，现在集群python都没有安装这些工具库，那我们应该如何在启动pyspark的时候 ...

ltne 2018-5-15 1 4668
kafka+SparkStreaming任务不断提交，却一直阻塞，求解答

kafka+SparkStreaming使用direct方式接受数据，首先启动kafka的Producer发送数据，然后启动SparkStreaming，使用 KafkaUtils.cre ...

星语心愿 2018-5-13 3 12947
如何在CDH中把spark组件显示在hue的Web界面

效果如下：谢谢指点，急

不可替代 2018-4-25 6 14040
spark2.3 java.lang.NoSuchMethodError: io.netty.buffer.PooledByteBufAllocator....

[mw_shl_code=scala,true]import org.apache.spark.sql.SparkSession object yfgspark01 { def main(args: Array[Strin ...

grinsky 2018-4-28 2 29411
探索Spark源码---Spark中的Client,Master和Slave

在Spark中，主要由Client节点，Master节点和Slave节节点组成。它们之间的关系如下图：在我们启动集群的时候，会启动Master和Wo ...

regan 2015-12-10 3 15798
Spark Streaming的exactly once的保证

我看官方文档说可以通过事务来保证数据消费的exactly once dstream.foreachRDD { (rdd, time) => rdd.foreachPartition { part ...

zstu 2018-4-18 2 6294
怎么统计SparkStreaming在数据上的运行时间（linux没有图形界面）

在Linux服务器上跑了一个SparkStreaming程序，需要统计程序在数据集上的运行时间，可是linux没有图形化界面，没法查看网页UI界面 ...

星语心愿 2018-4-15 9 11533
sparkStreaming+Kafka问题

JavaPairReceiverInputDStream dataStream = KafkaUtils.createStream(jssc, zkQuorum, group, topicmap); 使用KafkaUtils.crea ...

星语心愿 2018-4-12 2 4953
Spark graphx 强连通 numIter是啥含义？

各位大神，最近在使用Spark Graphx做一些图相关计算，在做强连通计算时，使用到graph.stronglyConnectedComponents(numIter = 10 ...

冰诺莫语 2018-4-12 1 7869
Spark job 的执行流程简介

微信搜索关注若泽大数据，定时推送技术博客，更有精美大数据课程，或者加入qq群：707635769 一起交流学习我们可以发现，Spar ...

ruozedashuju 2018-4-7 0 5716
spark-shell启动时报错

[spark@h101 newspark]$ ./bin/spark-shell 18/03/19 20:20:14 INFO spark.SecurityManager: Changing view acls to: spark 18 ...

zyr 2018-3-20 1 5500
Spark调度模式-FIFO和FAIR

Spark中的调度模式主要有两种：FIFO和FAIR。默认情况下Spark的调度模式是FIFO（先进先出），谁先提交谁先执行，后面的任务需要等 ...

dragon111111 2018-3-16 0 4746
spark 生成HFile bulkload到hbase 延伸三

关于KeyValue的排序以及HFile可否存在重复KeyValue 各位大佬小弟早上又操作了一下。从关系型数据库读取数据集，通 ...

remarkzhao 2018-3-15 7 9787
spark setMaster “local”可以 spark://master:7077就不行。

请问这是什么原因我的code是用spark bulkload数据到hbase 以HFile的形式报的异常 java.io.IOException: org.apache.sp ...

remarkzhao 2018-3-13 8 28457
新手求助，刚开始编写程序，出现application does not take parameters错误

跪求大神们带领小渣渣入门spark。编写应用程序时候使用的是parallellize方法，传入的对象明明是List（Vector）类型的，但是在指 ...

1601365 2018-3-13 4 10388