Apache SparkÔ´Âë×ß¶ÁÖ®19 - standalone clusterÄ£Ê½ÏÂ×ÊÔ´µÄÉêÇëÓëÊÍ·Å-Spark-AboutÔÆ-ËóÂ×¿Æ¼¼

¿²µÙË¿_Swan ·¢±íÓÚ 2015-1-3 17:07:48

Apache SparkÔ´Âë×ß¶ÁÖ®19 -- standalone clusterÄ£Ê½ÏÂ×ÊÔ´µÄÉêÇëÓëÊÍ·Å

±¾Ìû×îºóÓÉ pig2 ÓÚ 2015-1-6 14:17 ±à¼

ÎÊÌâµ¼¶Á
£±£®¹¹³ÉStandalone cluster²¿ÊðÄ£Ê½µÄËÄ´ó×é³É²¿¼þÓÐÄÄÐ©£¿·Ö±ðÓÐÊ²Ã´¹¦ÄÜ£¿
£²£®WorkerInfoÔÚscheduleº¯ÊýÖÐ»á±»Ê¹ÓÃµ½£¬scheduleº¯Êý´¦ÀíÂß¼ÊÇÔõÑùµÄ£¿

static/image/hrline/4.gif

¸ÅÒª±¾ÎÄÖ÷Òª½²ÊöÔÚstandalone cluster²¿ÊðÄ£Ê½ÏÂ£¬Spark ApplicationÔÚÕû¸öÔËÐÐÆÚ¼ä£¬×ÊÔ´(Ö÷ÒªÊÇcpu coreºÍÄÚ´æ)µÄÉêÇëÓëÊÍ·Å¡£¹¹³ÉStandalone cluster²¿ÊðÄ£Ê½µÄËÄ´ó×é³É²¿¼þÈçÏÂÍ¼ËùÊ¾£¬·Ö±ðÎªMaster, worker, executorºÍdriver£¬ËüÃÇ¸÷×ÔÔËÐÐÓÚ¶ÀÁ¢µÄJVM½ø³Ì¡£

´Ó×ÊÔ´¹ÜÀíµÄ½Ç¶ÈÀ´Ëµ
[*]MasterÕÆ¹ÜÕû¸öclusterµÄ×ÊÔ´£¬Ö÷ÒªÊÇÖ¸cpu coreºÍmemory£¬µ«Master×ÔÉí²¢²»ÓµÓÐÕâÐ©×ÊÔ´
[*]Worker ¼ÆËã×ÊÔ´µÄÊµ¼Ê¹±Ï×Õß£¬ÐëÏòMaster»ã±¨×ÔÉíÓµÓÐ¶àÉÙcpu coreºÍmemory, ÔÚmasterµÄÖ¸Ê¾ÏÂ¸ºÔðÆô¶¯executor
[*]Executor Ö´ÐÐÕæÕý¼ÆËãµÄ¿àÁ¦£¬ÓÉmasterÀ´¾ö¶¨¸Ã½ø³ÌÓµÓÐµÄcoreºÍmemoryÊýÖµ
[*]Driver ×ÊÔ´µÄÊµ¼ÊÕ¼ÓÃÕß£¬Driver»áÌá½»Ò»µ½¶à¸öjob£¬Ã¿¸öjobÔÚ²ð·Ö³É¶à¸ötaskÖ®ºó£¬»á·Ö·¢µ½¸÷¸öexecutorÕæÕýµÄÖ´ÐÐ
ÕâÐ©ÄÚÈÝÔÚstandalone clusterÄ£Ê½ÏÂµÄÈÝ´íÐÔ·ÖÎöÖÐÒ²ÓÐËùÉæ¼°£¬½ñÌìÖ÷Òª½²Ò»ÏÂ×ÊÔ´ÔÚ·ÖÅäÖ®ºó²»Í¬³¡¾°ÏÂÊÇÈçºÎ±»Ë³Àû»ØÊÕµÄ¡£
×ÊÔ´ÉÏ±¨»ã¾Û¹ý³Ìstandalone clusterÏÂ×îÖ÷ÒªµÄµ±È»ÊÇmaster£¬master±ØÐëÏÈÓÚworkerºÍdriver³ÌÐòÕý³£Æô¶¯¡£µ±masterË³ÀûÆô¶¯Íê±Ï£¬¿ÉÒÔ¿ªÊ¼workerµÄÆô¶¯¹¤×÷£¬workerÔÚÆô¶¯µÄÊ±ºòÐèÒªÏòmaster·¢Æð×¢²á£¬ÔÚ×¢²áÏûÏ¢ÖÐ´øÓÐ±¾worker½ÚµãµÄcpu coreºÍÄÚ´æ¡£µ÷ÓÃË³ÐòÈçÏÂpreStart->registerWithMaster->tryRegisterAllMasters¿´Ò»¿´tryRegisterAllMastersµÄ´úÂë
def tryRegisterAllMasters() {
for (masterUrl <- masterUrls) {
   logInfo("Connecting to master " + masterUrl + "...")
   val actor = context.actorSelection(Master.toAkkaUrl(masterUrl))
   actor ! RegisterWorker(workerId, host, port, cores, memory, webUi.boundPort, publicAddress)
}
}

ÎÒÃÇµÄÒÉÎÊÊÇRegisterWorker¹¹Ôìº¯ÊýËùÐèµÄ²ÎÊýmemoryºÍcoresÊÇ´ÓÄÄÀï»ñÈ¡µÄÄØ£¿×¢ÒâÒ»ÏÂWorkerÖÐµÄmainº¯Êý»á´´½¨WorkerArguments£¬
def main(argStrings: Array) {
SignalLogger.register(log)
val args = new WorkerArguments(argStrings)
val (actorSystem, _) = startSystemAndActor(args.host, args.port, args.webUiPort, args.cores,
   args.memory, args.masters, args.workDir)
actorSystem.awaitTermination()
}
memoryÍ¨¹ýº¯ÊýinferDefaultMemory»ñÈ¡£¬¶øcoresÍ¨¹ýinferDefaultCores»ñÈ¡¡£
def inferDefaultCores(): Int = {
Runtime.getRuntime.availableProcessors()
}

def inferDefaultMemory(): Int = {
val ibmVendor = System.getProperty("java.vendor").contains("IBM")
var totalMb = 0
try {
   val bean = ManagementFactory.getOperatingSystemMXBean()
   if (ibmVendor) {
   val beanClass = Class.forName("com.ibm.lang.management.OperatingSystemMXBean")
   val method = beanClass.getDeclaredMethod("getTotalPhysicalMemory")
   totalMb = (method.invoke(bean).asInstanceOf / 1024 / 1024).toInt
   } else {
   val beanClass = Class.forName("com.sun.management.OperatingSystemMXBean")
   val method = beanClass.getDeclaredMethod("getTotalPhysicalMemorySize")
   totalMb = (method.invoke(bean).asInstanceOf / 1024 / 1024).toInt
   }
} catch {
   case e: Exception => {
   totalMb = 2*1024
   System.out.println("Failed to get total physical memory. Using " + totalMb + " MB")
   }
}
// Leave out 1 GB for the operating system, but don't return a negative memory size
math.max(totalMb - 1024, 512)
}
Èç¹ûÒÑ¾ÔÚÅäÖÃÎÄ¼þÖÐÎªÏÔÊ¾Ö¸¶¨ÁËÃ¿¸öworkerµÄcoreºÍmemory£¬ÔòÊ¹ÓÃÅäÖÃÎÄ¼þÖÐµÄÖµ£¬¾ßÌåÅäÖÃ²ÎÊýÎªSPARK_WORKER_CORESºÍSPARK_WORKER_MEMORY
MasterÔÚÊÕµ½RegisterWorkÏûÏ¢Ö®ºó£¬¸ù¾ÝÉÏ±¨µÄÐÅÏ¢ÎªÃ¿Ò»¸öworker´´½¨ÏàÓ¦µÄWorkerInfo.
case RegisterWorker(id, workerHost, workerPort, cores, memory, workerUiPort, publicAddress) =>
{
   logInfo("Registering worker %s:%d with %d cores, %s RAM".format(
   workerHost, workerPort, cores, Utils.megabytesToString(memory)))
   if (state == RecoveryState.STANDBY) {
   // ignore, don't send response
   } else if (idToWorker.contains(id)) {
   sender ! RegisterWorkerFailed("Duplicate worker ID")
   } else {
   val worker = new WorkerInfo(id, workerHost, workerPort, cores, memory,
      sender, workerUiPort, publicAddress)
   if (registerWorker(worker)) {
      persistenceEngine.addWorker(worker)
      sender ! RegisteredWorker(masterUrl, masterWebUiUrl)
      schedule()
   } else {
      val workerAddress = worker.actor.path.address
      logWarning("Worker registration failed. Attempted to re-register worker at same " +
         "address: " + workerAddress)
      sender ! RegisterWorkerFailed("Attempted to re-register worker at same address: "
         + workerAddress)
   }
   }

×ÊÔ´·ÖÅä¹ý³ÌÈç¹ûÔÚworker×¢²áÉÏÀ´µÄÊ±ºò£¬ÒÑ¾ÓÐDriver Application×¢²áÉÏÀ´£¬ÄÇÃ´¾ÍÐèÒª½«ÔÏÈ´¦ÓÚÎ´·ÖÅä×ÊÔ´×´Ì¬µÄdriver applicationÆô¶¯ÏàÓ¦µÄexecutor¡£WorkerInfoÔÚscheduleº¯ÊýÖÐ»á±»Ê¹ÓÃµ½£¬scheduleº¯Êý´¦ÀíÂß¼¸ÅÊöÈçÏÂ
[*]²é¿´Ä¿Ç°´æ»îµÄworkerÖÐÊ£ÓàµÄÄÚ´æÊÇ·ñÄÜ¹»Âú×ãapplicationÃ¿¸ötaskµÄ×îµÍÐèÇó£¬Èç¹ûÊÇÔò½«¸Ãworker¼ÓÈëµ½¿É·ÖÅä×ÊÔ´µÄ¶ÓÁÐ
[*]¸ù¾Ý·Ö·¢²ßÂÔ£¬Èç¹ûÊÇ¾ö¶¨½«¹¤×÷Æ½Ì¯µ½Ã¿¸öworker£¬ÔòÃ¿´ÎÔÚÒ»¸öworkerÉÏÕ¼ÓÃÒ»¸öcore£¬Ö±µ½ËùÓÐ¿É·ÖÅä×ÊÔ´ºÄ¾¡»òÒÑ¾Âú×ãdriverµÄÐèÇó
[*]Èç¹û·Ö·¢²ßÂÔÊÇ·Ö·¢µ½¾¡¿ÉÄÜÉÙµÄworker£¬ÔòÒ»´ÎÕ¼ÓÃ¾¡workerÉÏµÄ¿É·ÖÅäcore£¬Ö±µ½driverµÄcoreÐèÇóµÃµ½Âú×ã
[*]¸ù¾Ý²½Öè2»ò3µÄ½á¹ûÔÚÃ¿¸öworkerÉÏÌí¼ÓÏàÓ¦µÄexecutor£¬´¦Àíº¯ÊýÊÇaddExecutor

ÎªÁËÐðÊö¼òµ¥£¬ÏÖ½öÁÐ³öÆ½Ì¯µ½¸÷¸öworkerµÄ·ÖÅä´¦Àí¹ý³Ì
for (worker > workers if worker.coresFree > 0 && worker.state == WorkerState.ALIVE) {
   for (app <- waitingApps if app.coresLeft > 0) {
      if (canUse(app, worker)) {
         val coresToUse = math.min(worker.coresFree, app.coresLeft)
         if (coresToUse > 0) {
         val exec = app.addExecutor(worker, coresToUse)
         launchExecutor(worker, exec)
         app.state = ApplicationState.RUNNING
         }
      }
   }
   }

launchExecutorÖ÷Òª¸ºÔðÁ½¼þÊÂÇé
[*]¼ÇÂ¼ÏÂÐÂÌí¼ÓµÄexecutorÊ¹ÓÃµôµÄcpu coreºÍÄÚ´æÊýÄ¿£¬¼ÇÂ¼¹ý³Ì·¢ÉúÔÚworker.addExecutor
[*]Ïòworker·¢ËÍLaunchExecutorÖ¸Áî

def launchExecutor(worker: WorkerInfo, exec: ExecutorInfo) {
logInfo("Launching executor " + exec.fullId + " on worker " + worker.id)
worker.addExecutor(exec)
worker.actor ! LaunchExecutor(masterUrl,
   exec.application.id, exec.id, exec.application.desc, exec.cores, exec.memory)
exec.application.driver ! ExecutorAdded(
   exec.id, worker.id, worker.hostPort, exec.cores, exec.memory)
}

workerÔÚÊÕµ½LaunchExecutorÖ¸Áîºó£¬Ò²»á¼ÇÒ»±ÊÕË£¬½«ÒªÊ¹ÓÃµôµÄcpu coreºÍmemory´Ó¿ÉÓÃ×ÊÔ´ÖÐ¼õÈ¥£¬È»ºóÊ¹ÓÃExecutorRunnerÀ´¸ºÔðÉú³ÉExecutor½ø³Ì£¬×¢ÒâExecutorÔËÐÐÓÚ¶ÀÁ¢µÄ½ø³Ì¡£´úÂëÈçÏÂ
case LaunchExecutor(masterUrl, appId, execId, appDesc, cores_, memory_) =>
   if (masterUrl != activeMasterUrl) {
   logWarning("Invalid Master (" + masterUrl + ") attempted to launch executor.")
   } else {
   try {
      logInfo("Asked to launch executor %s/%d for %s".format(appId, execId, appDesc.name))
      val manager = new ExecutorRunner(appId, execId, appDesc, cores_, memory_,
         self, workerId, host,
         appDesc.sparkHome.map(userSparkHome => new File(userSparkHome)).getOrElse(sparkHome),
         workDir, akkaUrl, conf, ExecutorState.RUNNING)
      executors(appId + "/" + execId) = manager
      manager.start()
      coresUsed += cores_
      memoryUsed += memory_
      masterLock.synchronized {
         master ! ExecutorStateChanged(appId, execId, manager.state, None, None)
      }
   } catch {
      case e: Exception => {
         logError("Failed to launch executor %s/%d for %s".format(appId, execId, appDesc.name))
         if (executors.contains(appId + "/" + execId)) {
         executors(appId + "/" + execId).kill()
         executors -= appId + "/" + execId
         }
         masterLock.synchronized {
         master ! ExecutorStateChanged(appId, execId, ExecutorState.FAILED, None, None)
         }
      }
   }
   }
ÔÚ×ÊÔ´·ÖÅä¹ý³ÌÖÐÐèÒª×¢Òâµ½µÄÊÇÈç¹ûÓÐ¶à¸öDriver Application´¦ÓÚµÈ´ý×´Ì¬£¬×ÊÔ´·ÖÅäµÄÔÔòÊÇFIFO£¬ÏÈµ½ÏÈµÃ¡£
×ÊÔ´»ØÊÕ¹ý³ÌworkerÖÐÉÏ±¨µÄ×ÊÔ´×îÖÕ±»driver applicationÖÐÌá½»µÄjob taskËùÕ¼ÓÃ£¬Èç¹ûapplication½áÊø(°üÀ¨Õý³£ºÍÒì³£ÍË³ö)£¬applicationËùÕ¼ÓÃµÄ×ÊÔ´¾ÍÓ¦¸Ã±»Ë³Àû»ØÊÕ£¬¼´½«Õ¼ÓÃµÄ×ÊÔ´ÖØÐÂ¹éÈë¿É·ÖÅä×ÊÔ´ÐÐÁÐ¡£ÏÖÔÚµÄÎÊÌâ×ª»»³ÉMasterºÍExecutorÈçºÎÖªµÀDriver ApplicationÒÑ¾ÍË³öÁËÄØ£¿ÓÐÁ½ÖÖ²»Í¬µÄ´¦Àí·½Ê½£¬Ò»ÖÖÊÇÏÈµÀ±ðºóÀë¿ª£¬Ò»ÖÖÊÇ²»¸æ¶ø±ð¡£ÏÖ·Ö±ð²ûÊö¡£ºÎÎªÏÈµÀ±ðºóÀë¿ª£¬¼´driver applicationÏÔÊ½µÄÍ¨ÖªmasterºÍexecutor£¬ÈÎÎñÒÑ¾Íê³ÉÁË£¬ÎÒÒªbyeÁË¡£Ó¦ÓÃ³ÌÐòÏÔÊ½µÄµ÷ÓÃSparkContext.stop
def stop() {
postApplicationEnd()
ui.stop()
// Do this only if not stopped already - best case effort.
// prevent NPE if stopped more than once.
val dagSchedulerCopy = dagScheduler
dagScheduler = null
if (dagSchedulerCopy != null) {
   metadataCleaner.cancel()
   cleaner.foreach(_.stop())
   dagSchedulerCopy.stop()
   taskScheduler = null
   // TODO: Cache.stop()?
   env.stop()
   SparkEnv.set(null)
   ShuffleMapTask.clearCache()
   ResultTask.clearCache()
   listenerBus.stop()
   eventLogger.foreach(_.stop())
   logInfo("Successfully stopped SparkContext")
} else {
   logInfo("SparkContext already stopped")
}
}
ÏÔÊ½µ÷ÓÃSparkContext.stopµÄÒ»¸öÖ÷Òª¹¦ÄÜÊÇ»áÈ¥ÏÔÊ½µÄÍ£Ö¹Executor£¬¾ßÌåÏÂ´ïStopExecutorÖ¸ÁîµÄ´úÂë¼ûÓÚCoarseGrainedSchedulerBackendÖÐµÄstopº¯Êý
override def stop() {
stopExecutors()
try {
   if (driverActor != null) {
   val future = driverActor.ask(StopDriver)(timeout)
   Await.ready(future, timeout)
   }
} catch {
   case e: Exception =>
   throw new SparkException("Error stopping standalone scheduler's driver actor", e)
}
}
ÄÇÃ´MasterÓÖÊÇÈçºÎÖªµÀDriver ApplicationÍË³öµÄÄØ£¿ÕâÒª¹é¹¦ÓÚAkkaµÄÍ¨Ñ¶»úÖÆÁË£¬µ±Ïà»¥Í¨Ñ¶µÄÈÎÒâÒ»·½Òì³£ÍË³ö£¬ÁíÒ»·½¶¼»áÊÕµ½DisassociatedEvent, MasterÒ²¾ÍÊÇÔÚÕâ¸öÏûÏ¢´¦ÀíÖÐÒÆ³ýÒÑ¾Í£Ö¹µÄDriver Application¡£
case DisassociatedEvent(_, address, _) => {
   // The disconnected client could've been either a worker or an app; remove whichever it was
   logInfo(s"$address got disassociated, removing it.")
   addressToWorker.get(address).foreach(removeWorker)
   addressToApp.get(address).foreach(finishApplication)
   if (state == RecoveryState.RECOVERING && canCompleteRecovery) { completeRecovery() }
}

²»¸æ¶ø±ðµÄ·½Ê½ÏÂExecutorÊÇÈçºÎÖªµÀ×Ô¼ºËù·þÎñµÄapplicationÒÑ¾Ë³ÀûÍê³ÉÊ¹ÃüÁËÄØ£¿µÀÀíºÍmasterµÄÒ»Ñù£¬»¹ÊÇÍ¨¹ýDisassociatedEventÀ´¸ÐÖª¡£Ïê¼ûCoarseGrainedExecutorBackendÖÐµÄreceiveº¯Êý
case x: DisassociatedEvent =>
   logError(s"Driver $x disassociated! Shutting down.")
   System.exit(1)

Òì³£Çé¿öÏÂµÄ×ÊÔ´»ØÊÕÓÉÓÚMasterºÍWorkerÖ®¼äµÄÐÄÌø»úÖÆ£¬Èç¹ûworkerÒì³£ÍË³ö£¬ Master»áÓÉÐÄÌø»úÖÆ¸ÐÖªµ½ÆäÏûÍö£¬½ø¶ø½«ÆäÉÏ±¨µÄ×ÊÔ´ÒÆ³ý¡£ExecutorÒì³£ÍË³öÊ±£¬WorkerÖÐµÄ¼à¿ØÏß³ÌExecutorRunner»áÁ¢¼´¸ÐÖª£¬½ø¶øÉÏ±¨¸øMaster£¬Master»á»ØÊÕ×ÊÔ´£¬²¢ÖØÐÂÒªÇóworkerÆô¶¯executor¡£

Ïà¹ØÄÚÈÝ

Apache SparkÔ´Âë×ß¶ÁÖ®1 -- SparkÂÛÎÄÔÄ¶Á±Ê¼Ç

Apache SparkÔ´Âë×ß¶ÁÖ®2 -- JobµÄÌá½»ÓëÔËÐÐ

Apache SparkÔ´Âë×ß¶ÁÖ®3-- TaskÔËÐÐÆÚÖ®º¯Êýµ÷ÓÃ¹ØÏµ·ÖÎö

Apache SparkÔ´Âë×ß¶ÁÖ®4 -- DStreamÊµÊ±Á÷Êý¾Ý´¦Àí

Apache SparkÔ´Âë×ß¶ÁÖ®5-- DStream´¦ÀíµÄÈÝ´íÐÔ·ÖÎö

Apache SparkÔ´Âë×ß¶ÁÖ®6-- ´æ´¢×ÓÏµÍ³·ÖÎö

Apache SparkÔ´Âë×ß¶ÁÖ®7 -- Standalone²¿Êð·½Ê½·ÖÎö

Apache SparkÔ´Âë×ß¶ÁÖ®8 -- Spark on Yarn

Apache SparkÔ´Âë×ß¶ÁÖ®9 -- SparkÔ´Âë±àÒë

Apache SparkÔ´Âë×ß¶ÁÖ®10 -- ÔÚYARNÉÏÔËÐÐSparkPi

Apache SparkÔ´Âë×ß¶ÁÖ®11 -- sqlµÄ½âÎöÓëÖ´ÐÐ

Apache SparkÔ´Âë×ß¶ÁÖ®12 -- Hive on SparkÔËÐÐ»·¾³´î½¨

Apache SparkÔ´Âë×ß¶ÁÖ®13 -- hiveql on sparkÊµÏÖÏê½â

Apache SparkÔ´Âë×ß¶ÁÖ®14 -- GraphxÊµÏÖÆÊÎö

Apache SparkÔ´Âë×ß¶ÁÖ®15 -- Standalone²¿ÊðÄ£Ê½ÏÂµÄÈÝ´íÐÔ·ÖÎö

Apache SparkÔ´Âë×ß¶ÁÖ®16 -- spark replÊµÏÖÏê½â

Apache SparkÔ´Âë×ß¶ÁÖ®17 -- ÈçºÎ½øÐÐ´úÂë¸ú¶Á

Apache SparkÔ´Âë×ß¶ÁÖ®18 -- Ê¹ÓÃIntellij ideaµ÷ÊÔSparkÔ´Âë

Apache SparkÔ´Âë×ß¶ÁÖ®20 -- ShuffleMapTask¼ÆËã½á¹ûµÄ±£´æÓë¶ÁÈ¡

Apache SparkÔ´Âë×ß¶ÁÖ®21 -- WEB UIºÍMetrics³õÊ¼»¯¼°Êý¾Ý¸üÐÂ¹ý³Ì·ÖÎö

Apache SparkÔ´Âë×ß¶ÁÖ®22 -- Ç³Ì¸mllibÖÐÏßÐÔ»Ø¹éµÄËã·¨ÊµÏÖ

Apache SparkÔ´Âë×ß¶ÁÖ®23 -- Spark MLLibÖÐÄâÅ£¶Ù·¨L-BFGSµÄÔ´ÂëÊµÏÖ

Apache SparkÔ´Âë×ß¶ÁÖ®24 -- Sort-based ShuffleµÄÉè¼ÆÓëÊµÏÖ

±¾ÎÄ×ª×Ô»Õ»¦Ò»ÀÉhttp://www.cnblogs.com/hseagle/p/3858694.html

Âä»ê²Ý ·¢±íÓÚ 2015-1-3 20:09:31

{:soso_e179:}

fzleejm ·¢±íÓÚ 2015-1-4 09:32:35

Ñ§Ï°¡£¡£

355815741 ·¢±íÓÚ 2015-1-4 10:03:06

Ñ§Ï°ÁË£¬Ð»Ð»·ÖÏí~

Ò³: [1]

AboutÔÆ-ËóÂ×¿Æ¼¼'s Archiver

Apache SparkÔ´Âë×ß¶ÁÖ®19 -- standalone clusterÄ£Ê½ÏÂ×ÊÔ´µÄÉêÇëÓëÊÍ·Å