用户组:游客
hi,想问一下大家有用过Structured Streaming消费kafka数据吗?它能自己管理kafka offset吗?
1. 获取配置文件中的配置1.1. 简述在实际的开发中,工程中的一些配置会放在classpath下的配置文件中,然后在程序代码中,会对配 ...
各位老师,我在intellij idea中添加了spark插件,使用Scala语言开发spark程序,请问在编程的时候怎么用Scala计算微积分呢?需不 ...
大家有用过spring和sparksql一块用吗?我从github上找了一个demo(https://github.com/Zhuinden/spring-spark-example),打成ja ...
学习streaming 时看见这么一段话,如图 这样的意思是每个节点不需要给两个CPU core? 那这样说,我这样配的虚拟机是 ...
近日有一个需求:读取HBase数据库的用户行为数据表,根据用户的浏览书籍数据,计算用户相似度,然后根据用户相似度进 ...
请问各位叔叔阿姨大哥大姐,怎么在spark中实现LOF(局部异常因子)的计算?,我在网上看到的是“new LOF()”,通过导入操作import ...
在spark编程中,遇到了一个问题,需要对一个二维数组进行读写操作,那么怎么才能实现像广播变量和累加器类似的功能呢?
从网上找了几篇说法一一试了都没有用,不知道是不是帖子比较久远的原因 我的hive是2.1.1,spark是2.1.0,hadoop是2.7.3 求详细 ...
在集群中,spark从hdfs中是怎么加快读取数据的?另外spark分区在集群中是怎么分布的? 1、spark从hdfs中读取数据是从各个节点读 ...
现在有一个问题,就是统计shuffle阶段消耗的时间占程序运行总时间的百分比,可是怎么通过代码实现统计shuffle阶段消耗的时间呢? ...
[mw_shl_code=java,true]val spark = SparkSession.builder().appName(this.getClass.getSimpleName) .master(master). ...
我用spark 的start-thriftserver.sh脚本启动Thrift服务,但用beeline登录hiveserver2登录不了,试了一些用户 但还是登录不了。
下载好了vmware版的cloudera-quickstart-vm-5.13.0-0,解压后,使用虚拟机打开cloudera-quickstart-vm-5.13.0-0-vmware.vmx,然 ...
[root@localhost hadoop]# source core-site.xml bash: core-site.xml: line 1: syntax error near unexpected token `newline ...
自己编写了一个python程序,或者有一些python工具库,现在集群python都没有安装这些工具库,那我们应该如何在启动pyspark的时候 ...
kafka+SparkStreaming使用direct方式接受数据,首先启动kafka的Producer发送数据,然后启动SparkStreaming,使用 KafkaUtils.cre ...
效果如下:谢谢指点,急
[mw_shl_code=scala,true]import org.apache.spark.sql.SparkSession object yfgspark01 { def main(args: Array[Strin ...
在Spark中,主要由Client节点,Master节点和Slave节节点组成。它们之间的关系如下图: 在我们启动集群的时候,会启动Master和Wo ...
我看官方文档说可以通过事务来保证数据消费的exactly once dstream.foreachRDD { (rdd, time) => rdd.foreachPartition { part ...
在Linux服务器上跑了一个SparkStreaming程序,需要统计程序在数据集上的运行时间,可是linux没有图形化界面,没法查看网页UI界面 ...
JavaPairReceiverInputDStream dataStream = KafkaUtils.createStream(jssc, zkQuorum, group, topicmap); 使用KafkaUtils.crea ...
各位大神,最近在使用Spark Graphx做一些图相关计算,在做强连通计算时,使用到graph.stronglyConnectedComponents(numIter = 10 ...
微信搜索关注 若泽大数据,定时推送技术博客,更有精美大数据课程,或者加入qq群:707635769 一起交流学习 我们可以发现,Spar ...
[spark@h101 newspark]$ ./bin/spark-shell 18/03/19 20:20:14 INFO spark.SecurityManager: Changing view acls to: spark 18 ...
Spark中的调度模式主要有两种:FIFO和FAIR。默认情况下Spark的调度模式是FIFO(先进先出),谁先提交谁先执行,后面的任务需要等 ...
关于KeyValue的排序以及HFile可否存在重复KeyValue 各位大佬 小弟早上又操作了一下。 从关系型数据库读取数据集,通 ...
请问这是什么原因 我的code是 用spark bulkload数据到hbase 以HFile的形式 报的异常 java.io.IOException: org.apache.sp ...
跪求大神们带领小渣渣入门spark。编写应用程序时候使用的是parallellize方法,传入的对象明明是List(Vector)类型的,但是在指 ...
本版积分规则 发表帖子
查看 »