分享

sparkSQL1.1入门之三:sparkSQL组件之解析(sqlContext的关键的概念和组件)

问题导读

1.sqlContext有哪些关键的概念和组件?
2.LogicalPlan里维护着什么方面的数据?
3.LogicalPlan有哪三种类型?
4.对于SQL语句解析时,会调用和SQL匹配的操作方法来进行解析;这些操作分哪四大类?
5.SqlParser的功能是什么?
6.SQL语法表达式支持哪3种操作?
7.Optimizer的功能是什么?





上篇:

sparkSQL1.1入门之二:sparkSQL运行架构


上篇在总体上介绍了sparkSQL的运行架构及其基本实现方法(Tree和Rule的配合),也大致介绍了sparkSQL中涉及到的各个概念和组件。本篇将详细地介绍一下关键的一些概念和组件,由于hiveContext继承自sqlContext,关键的概念和组件类似,只不过后者针对hive的特性做了一些修正和重写,所以本篇就只介绍sqlContext的关键的概念和组件。
  • 概念:
    • LogicalPlan
  • 组件:
    • SqlParser
    • Analyzer
    • Optimizer
    • Planner


1:LogicalPlan
在sparkSQL的运行架构中,LogicalPlan贯穿了大部分的过程,其中catalyst中的SqlParser、Analyzer、Optimizer都要对LogicalPlan进行操作。LogicalPlan的定义如下:


  1. abstract class LogicalPlan extends QueryPlan[LogicalPlan] {
  2.   self: Product =>
  3.   case class Statistics(
  4.     sizeInBytes: BigInt
  5.   )
  6.   lazy val statistics: Statistics = {
  7.     if (children.size == 0) {
  8.       throw new UnsupportedOperationException(s"LeafNode $nodeName must implement statistics.")
  9.     }
  10.     Statistics(
  11.       sizeInBytes = children.map(_.statistics).map(_.sizeInBytes).product)
  12.   }
  13.   /**
  14.    * Returns the set of attributes that this node takes as
  15.    * input from its children.
  16.    */
  17.   lazy val inputSet: AttributeSet = AttributeSet(children.flatMap(_.output))
  18.   /**
  19.    * Returns true if this expression and all its children have been resolved to a specific schema
  20.    * and false if it is still contains any unresolved placeholders. Implementations of LogicalPlan
  21.    * can override this (e.g.
  22.    * [[org.apache.spark.sql.catalyst.analysis.UnresolvedRelation UnresolvedRelation]]
  23.    * should return `false`).
  24.    */
  25.   lazy val resolved: Boolean = !expressions.exists(!_.resolved) && childrenResolved
  26.   /**
  27.    * Returns true if all its children of this query plan have been resolved.
  28.    */
  29.   def childrenResolved: Boolean = !children.exists(!_.resolved)
  30.   /**
  31.    * Optionally resolves the given string to a [[NamedExpression]] using the input from all child
  32.    * nodes of this LogicalPlan. The attribute is expressed as
  33.    * as string in the following form: `[scope].AttributeName.[nested].[fields]...`.
  34.    */
  35.   def resolveChildren(name: String): Option[NamedExpression] =
  36.     resolve(name, children.flatMap(_.output))
  37.   /**
  38.    * Optionally resolves the given string to a [[NamedExpression]] based on the output of this
  39.    * LogicalPlan. The attribute is expressed as string in the following form:
  40.    * `[scope].AttributeName.[nested].[fields]...`.
  41.    */
  42.   def resolve(name: String): Option[NamedExpression] =
  43.     resolve(name, output)
  44.   /** Performs attribute resolution given a name and a sequence of possible attributes. */
  45.   protected def resolve(name: String, input: Seq[Attribute]): Option[NamedExpression] = {
  46.     val parts = name.split("\\.")
  47.     val options = input.flatMap { option =>
  48.       val remainingParts =
  49.         if (option.qualifiers.contains(parts.head) && parts.size > 1) parts.drop(1) else parts
  50.       if (option.name == remainingParts.head) (option, remainingParts.tail.toList) :: Nil else Nil
  51.     }
  52.     options.distinct match {
  53.       case Seq((a, Nil)) => Some(a) // One match, no nested fields, use it.
  54.       // One match, but we also need to extract the requested nested field.
  55.       case Seq((a, nestedFields)) =>
  56.         a.dataType match {
  57.           case StructType(fields) =>
  58.             Some(Alias(nestedFields.foldLeft(a: Expression)(GetField), nestedFields.last)())
  59.           case _ => None // Don't know how to resolve these field references
  60.         }
  61.       case Seq() => None         // No matches.
  62.       case ambiguousReferences =>
  63.         throw new TreeNodeException(
  64.           this, s"Ambiguous references to $name: ${ambiguousReferences.mkString(",")}")
  65.     }
  66.   }
  67. }
复制代码


在LogicalPlan里维护着一套统计数据和属性数据,也提供了解析方法。同时延伸了三种类型的LogicalPlan:
  • LeafNode:对应于trees.LeafNode的LogicalPlan
  • UnaryNode:对应于trees.UnaryNode的LogicalPlan
  • BinaryNode:对应于trees.BinaryNode的LogicalPlan

而对于SQL语句解析时,会调用和SQL匹配的操作方法来进行解析;这些操作分四大类,最终生成LeafNode、UnaryNode、BinaryNode中的一种:
  • basicOperators:一些数据基本操作,如Ioin、Union、Filter、Project、Sort
  • commands:一些命令操作,如SetCommand、CacheCommand
  • partitioning:一些分区操作,如RedistributeData
  • ScriptTransformation:对脚本的处理,如ScriptTransformation
  • LogicalPlan类的总体架构如下所示




1.png '

2:SqlParser
SqlParser的功能就是将SQL语句解析成Unresolved LogicalPlan。现阶段的SqlParser语法解析功能比较简单,支持的语法比较有限。其解析过程中有两个关键组件和一个关键函数:
  • 词法读入器SqlLexical,其作用就是将输入的SQL语句进行扫描、去空、去注释、校验、分词等动作。
  • SQL语法表达式query,其作用定义SQL语法表达式,同时也定义了SQL语法表达式的具体实现,即将不同的表达式生成不同sparkSQL的Unresolved LogicalPlan。
  • 函数phrase(),上面个两个组件通过调用phrase(query)(new lexical.Scanner(input)),完成对SQL语句的解析;在解析过程中,SqlLexical一边读入,一边解析,如果碰上生成符合SQL语法的表达式时,就调用相应SQL语法表达式的具体实现函数,将SQL语句解析成Unresolved LogicalPlan。

下面看看sparkSQL的整个解析过程和相关组件:

A:解析过程
首先,在sqlContext中使用下面代码调用catalyst.SqlParser:


  1. /*源自 sql/core/src/main/scala/org/apache/spark/sql/SQLContext.scala */
  2.   protected[sql] val parser = new catalyst.SqlParser
  3.   protected[sql] def parseSql(sql: String): LogicalPlan = parser(sql)
复制代码
然后,直接在SqlParser的apply方法中对输入的SQL语句进行解析,解析功能的核心代码就是:
phrase(query)(new lexical.Scanner(input))

  1. /*源自 src/main/scala/org/apache/spark/sql/catalyst/SqlParser.scala */
  2. class SqlParser extends StandardTokenParsers with PackratParsers {
  3.   def apply(input: String): LogicalPlan = {
  4.     if (input.trim.toLowerCase.startsWith("set")) {
  5.       //set设置项的处理
  6.     ......
  7.     } else {
  8.       phrase(query)(new lexical.Scanner(input)) match {
  9.         case Success(r, x) => r
  10.         case x => sys.error(x.toString)
  11.       }
  12.     }
  13.   }
  14. ......
复制代码
可以看得出来,该语句就是调用phrase()函数,使用SQL语法表达式query,对词法读入器lexical读入的SQL语句进行解析,其中词法读入器lexical通过重写语句:override val lexical = new SqlLexical(reservedWords) 调用扩展了功能的SqlLexical。其定义:
  1. /*源自 src/main/scala/org/apache/spark/sql/catalyst/SqlParser.scala */  
  2. // Use reflection to find the reserved words defined in this class.
  3.   protected val reservedWords =
  4.     this.getClass
  5.       .getMethods
  6.       .filter(_.getReturnType == classOf[Keyword])
  7.       .map(_.invoke(this).asInstanceOf[Keyword].str)
  8.   override val lexical = new SqlLexical(reservedWords)
复制代码


为了加深对SQL语句解析过程的理解,让我们看看下面这个简单数字表达式解析过程来说明:
  1. import scala.util.parsing.combinator.PackratParsers
  2. import scala.util.parsing.combinator.syntactical._
  3. object mylexical extends StandardTokenParsers with PackratParsers {
  4.   //定义分割符
  5.   lexical.delimiters ++= List(".", ";", "+", "-", "*")
  6.   //定义表达式,支持加,减,乘
  7.   lazy val expr: PackratParser[Int] = plus | minus | multi
  8.   //加法表示式的实现
  9.   lazy val plus: PackratParser[Int] = num ~ "+" ~ num ^^ { case n1 ~ "+" ~ n2 => n1.toInt + n2.toInt}
  10.   //减法表达式的实现
  11.   lazy val minus: PackratParser[Int] = num ~ "-" ~ num ^^ { case n1 ~ "-" ~ n2 => n1.toInt - n2.toInt}
  12.   //乘法表达式的实现
  13.   lazy val multi: PackratParser[Int] = num ~ "*" ~ num ^^ { case n1 ~ "*" ~ n2 => n1.toInt * n2.toInt}
  14.   lazy val num = numericLit
  15.   def parse(input: String) = {
  16.     //定义词法读入器myread,并将扫描头放置在input的首位
  17.     val myread = new PackratReader(new lexical.Scanner(input))
  18.     print("处理表达式 " + input)
  19.     phrase(expr)(myread) match {
  20.       case Success(result, _) => println(" Success!"); println(result); Some(result)
  21.       case n => println(n); println("Err!"); None
  22.     }
  23.   }
  24.   def main(args: Array[String]) {
  25.     val prg = "6 * 3" :: "24-/*aaa*/4" :: "a+5" :: "21/3" :: Nil
  26.     prg.map(parse)
  27.   }
  28. }
复制代码
运行结果:

  1. 处理表达式 6 * 3 Success!     //lexical对空格进行了处理,得到6*3
  2. 18     //6*3符合乘法表达式,调用n1.toInt * n2.toInt,得到结果并返回
  3. 处理表达式 24-/*aaa*/4 Success!  //lexical对注释进行了处理,得到20-4
  4. 20    //20-4符合减法表达式,调用n1.toInt - n2.toInt,得到结果并返回
  5. 处理表达式 a+5[1.1] failure: number expected
  6.       //lexical在解析到a,发现不是整数型,故报错误位置和内容
  7. a+5
  8. ^
  9. Err!
  10. 处理表达式 21/3[1.3] failure: ``*'' expected but ErrorToken(illegal character) found
  11.       //lexical在解析到/,发现不是分割符,故报错误位置和内容
  12. 21/3
  13.   ^
  14. Err!
复制代码
在运行的时候,首先对表达式 6 * 3 进行解析,词法读入器myread将扫描头置于6的位置;当phrase()函数使用定义好的数字表达式expr处理6 * 3的时候,6 * 3每读入一个词法,就和expr进行匹配,如读入6*和expr进行匹配,先匹配表达式plus,*和+匹配不上;就继续匹配表达式minus,*和-匹配不上;就继续匹配表达式multi,这次匹配上了,等读入3的时候,因为3是num类型,就调用调用n1.toInt * n2.toInt进行计算。
      注意,这里的expr、plus、minus、multi、num都是表达式,|、~、^^是复合因子,表达式和复合因子可以组成一个新的表达式,如plus(num ~ "+" ~ num ^^ { case n1 ~ "+" ~ n2 => n1.toInt + n2.toInt})就是一个由num、+、num、函数构成的复合表达式;而expr(plus | minus | multi)是由plus、minus、multi构成的复合表达式;复合因子的含义定义在类scala/util/parsing/combinator/Parsers.scala,下面是几个常用的复合因子:
  • p ~ q p成功,才会q;放回p,q的结果
  • p ~> q p成功,才会q,返回q的结果
  • p <~ q p成功,才会q,返回p的结果
  • p | q p失败则q,返回第一个成功的结果
  • p ^^ f 如果p成功,将函数f应用到p的结果上
  • p ^? f 如果p成功,如果函数f可以应用到p的结果上的话,就将p的结果用f进行转换

      针对上面的6 * 3使用的是multi表达式(num ~ "*" ~ num ^^ { case n1 ~ "*" ~ n2 => n1.toInt * n2.toInt}),其含义就是:num后跟*再跟num,如果满足就将使用函数n1.toInt * n2.toInt。
      到这里为止,大家应该明白整个解析过程了吧,。SqlParser的原理和这个表达式解析器使用了一样的原理,只不过是定义的SQL语法表达式query复杂一些,使用的词法读入器更丰富一些而已。下面分别介绍一下相关组件SqlParser、SqlLexical、query。

B:SqlParser

首先,看看SqlParser的UML图:


2.png

其次,看看SqlParser的定义,SqlParser继承自类StandardTokenParsers和特质PackratParsers:
其中,PackratParsers:
  • 扩展了scala.util.parsing.combinator.Parsers所提供的parser,做了内存化处理;
  • Packrat解析器实现了回溯解析和递归下降解析,具有无限先行和线性分析时的优势。同时,也支持左递归词法解析。
  • 从Parsers中继承出来的class或trait都可以使用PackratParsers,如:object MyGrammar extends StandardTokenParsers with PackratParsers;
  • PackratParsers将分析结果进行缓存,因此,PackratsParsers需要PackratReader(内存化处理的Reader)作为输入,程序员可以手工创建PackratReader,如production(new PackratReader(new lexical.Scanner(input))),更多的细节参见scala库中/scala/util/parsing/combinator/PackratParsers.scala文件。
StandardTokenParsers是最终继承自Parsers
  • 增加了词法的处理能力(Parsers是字符处理),在StdTokenParsers中定义了四种基本词法:
    • keyword tokens
    • numeric literal tokens
    • string literal tokens
    • identifier tokens
  • 定义了一个词法读入器lexical,可以进行词法读入

SqlParser在进行解析SQL语句的时候是调用了PackratParsers中phrase():



  1. /*源自 scala/util/parsing/combinator/PackratParsers.scala */
  2. /**
  3.    *  A parser generator delimiting whole phrases (i.e. programs).
  4.    *
  5.    *  Overridden to make sure any input passed to the argument parser
  6.    *  is wrapped in a `PackratReader`.
  7.    */
  8.   override def phrase[T](p: Parser[T]) = {
  9.     val q = super.phrase(p)
  10.     new PackratParser[T] {
  11.       def apply(in: Input) = in match {
  12.         case in: PackratReader[_] => q(in)
  13.         case in => q(new PackratReader(in))
  14.       }
  15.     }
  16.   }
复制代码
在解析过程中,一般会定义多个表达式,如上面例子中的plus | minus | multi,一旦前一个表达式不能解析的话,就会调用下一个表达式进行解析:
  1. /*源自 scala/util/parsing/combinator/Parsers.scala */
  2.     def append[U >: T](p0: => Parser[U]): Parser[U] = { lazy val p = p0 // lazy argument
  3.       Parser{ in => this(in) append p(in)}
  4.     }
复制代码
表达式解析正确后,具体的实现函数是在PackratParsers中完成:
  1. /*源自 scala/util/parsing/combinator/PackratParsers.scala */  
  2. def memo[T](p: super.Parser[T]): PackratParser[T] = {
  3.     new PackratParser[T] {
  4.       def apply(in: Input) = {
  5.         val inMem = in.asInstanceOf[PackratReader[Elem]]
  6.         //look in the global cache if in a recursion
  7.         val m = recall(p, inMem)
  8.         m match {
  9.           //nothing has been done due to recall
  10.           case None =>
  11.             val base = LR(Failure("Base Failure",in), p, None)
  12.             inMem.lrStack = base::inMem.lrStack
  13.             //cache base result
  14.             inMem.updateCacheAndGet(p,MemoEntry(Left(base)))
  15.             //parse the input
  16.             val tempRes = p(in)
  17.             //the base variable has passed equality tests with the cache
  18.             inMem.lrStack = inMem.lrStack.tail
  19.             //check whether base has changed, if yes, we will have a head
  20.             base.head match {
  21.               case None =>
  22.                 /*simple result*/
  23.                 inMem.updateCacheAndGet(p,MemoEntry(Right(tempRes)))
  24.                 tempRes
  25.               case s@Some(_) =>
  26.                 /*non simple result*/
  27.                 base.seed = tempRes
  28.                 //the base variable has passed equality tests with the cache
  29.                 val res = lrAnswer(p, inMem, base)
  30.                 res
  31.             }
  32.           case Some(mEntry) => {
  33.             //entry found in cache
  34.             mEntry match {
  35.               case MemoEntry(Left(recDetect)) => {
  36.                 setupLR(p, inMem, recDetect)
  37.                 //all setupLR does is change the heads of the recursions, so the seed will stay the same
  38.                 recDetect match {case LR(seed, _, _) => seed.asInstanceOf[ParseResult[T]]}
  39.               }
  40.               case MemoEntry(Right(res: ParseResult[_])) => res.asInstanceOf[ParseResult[T]]
  41.             }
  42.           }
  43.         }
  44.       }
  45.     }
  46.   }
复制代码
StandardTokenParsers增加了词法处理能力,SqlParers定义了大量的关键字,重写了词法读入器,将这些关键字应用于词法读入器。

C:SqlLexical
词法读入器SqlLexical扩展了StdLexical的功能,首先增加了大量的关键字:

  1. /*源自 src/main/scala/org/apache/spark/sql/catalyst/SqlParser.scala */  
  2.   protected val ALL = Keyword("ALL")
  3.   protected val AND = Keyword("AND")
  4.   protected val AS = Keyword("AS")
  5.   protected val ASC = Keyword("ASC")
  6.   ......
  7.   protected val SUBSTR = Keyword("SUBSTR")
  8.   protected val SUBSTRING = Keyword("SUBSTRING")
复制代码
其次丰富了分隔符、词法处理、空格注释处理:
  1. /*源自 src/main/scala/org/apache/spark/sql/catalyst/SqlParser.scala */
  2. delimiters += (
  3.       "@", "*", "+", "-", "<", "=", "<>", "!=", "<=", ">=", ">", "/", "(", ")",
  4.       ",", ";", "%", "{", "}", ":", "[", "]"
  5.   )
  6.   override lazy val token: Parser[Token] = (
  7.     identChar ~ rep( identChar | digit ) ^^
  8.       { case first ~ rest => processIdent(first :: rest mkString "") }
  9.       | rep1(digit) ~ opt('.' ~> rep(digit)) ^^ {
  10.       case i ~ None    => NumericLit(i mkString "")
  11.       case i ~ Some(d) => FloatLit(i.mkString("") + "." + d.mkString(""))
  12.     }
  13.       | '\'' ~ rep( chrExcept('\'', '\n', EofCh) ) ~ '\'' ^^
  14.       { case '\'' ~ chars ~ '\'' => StringLit(chars mkString "") }
  15.       | '"' ~ rep( chrExcept('"', '\n', EofCh) ) ~ '"' ^^
  16.       { case '"' ~ chars ~ '"' => StringLit(chars mkString "") }
  17.       | EofCh ^^^ EOF
  18.       | '\'' ~> failure("unclosed string literal")
  19.       | '"' ~> failure("unclosed string literal")
  20.       | delim
  21.       | failure("illegal character")
  22.     )
  23.   override def identChar = letter | elem('_') | elem('.')
  24.   override def whitespace: Parser[Any] = rep(
  25.     whitespaceChar
  26.       | '/' ~ '*' ~ comment
  27.       | '/' ~ '/' ~ rep( chrExcept(EofCh, '\n') )
  28.       | '#' ~ rep( chrExcept(EofCh, '\n') )
  29.       | '-' ~ '-' ~ rep( chrExcept(EofCh, '\n') )
  30.       | '/' ~ '*' ~ failure("unclosed comment")
  31.   )
复制代码
最后看看SQL语法表达式query。

D:query
SQL语法表达式支持3种操作:select、insert、cache

  1. /*源自 src/main/scala/org/apache/spark/sql/catalyst/SqlParser.scala */
  2. protected lazy val query: Parser[LogicalPlan] = (
  3.     select * (
  4.         UNION ~ ALL ^^^ { (q1: LogicalPlan, q2: LogicalPlan) => Union(q1, q2) } |
  5.         INTERSECT ^^^ { (q1: LogicalPlan, q2: LogicalPlan) => Intersect(q1, q2) } |
  6.         EXCEPT ^^^ { (q1: LogicalPlan, q2: LogicalPlan) => Except(q1, q2)} |
  7.         UNION ~ opt(DISTINCT) ^^^ { (q1: LogicalPlan, q2: LogicalPlan) => Distinct(Union(q1, q2)) }
  8.       )
  9.     | insert | cache
  10.   )
复制代码

而这些操作还有具体的定义,如select,这里开始定义了具体的函数,将SQL语句转换成构成Unresolved LogicalPlan的一些Node:

  1. /*源自 src/main/scala/org/apache/spark/sql/catalyst/SqlParser.scala */
  2.   protected lazy val select: Parser[LogicalPlan] =
  3.     SELECT ~> opt(DISTINCT) ~ projections ~
  4.     opt(from) ~ opt(filter) ~
  5.     opt(grouping) ~
  6.     opt(having) ~
  7.     opt(orderBy) ~
  8.     opt(limit) <~ opt(";") ^^ {
  9.       case d ~ p ~ r ~ f ~ g ~ h ~ o ~ l  =>
  10.         val base = r.getOrElse(NoRelation)
  11.         val withFilter = f.map(f => Filter(f, base)).getOrElse(base)
  12.         val withProjection =
  13.           g.map {g =>
  14.             Aggregate(assignAliases(g), assignAliases(p), withFilter)
  15.           }.getOrElse(Project(assignAliases(p), withFilter))
  16.         val withDistinct = d.map(_ => Distinct(withProjection)).getOrElse(withProjection)
  17.         val withHaving = h.map(h => Filter(h, withDistinct)).getOrElse(withDistinct)
  18.         val withOrder = o.map(o => Sort(o, withHaving)).getOrElse(withHaving)
  19.         val withLimit = l.map { l => Limit(l, withOrder) }.getOrElse(withOrder)
  20.         withLimit
  21.   }
复制代码


3:Analyzer
Analyzer的功能就是对来自SqlParser的Unresolved LogicalPlan中的UnresolvedAttribute项和UnresolvedRelation项,对照catalog和FunctionRegistry生成Analyzed LogicalPlan。Analyzer定义了5大类14小类的rule:
  1. /*源自 sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/analysis/Analyzer.scala */
  2.   val batches: Seq[Batch] = Seq(
  3.     Batch("MultiInstanceRelations", Once,
  4.       NewRelationInstances),
  5.     Batch("CaseInsensitiveAttributeReferences", Once,
  6.       (if (caseSensitive) Nil else LowercaseAttributeReferences :: Nil) : _*),
  7.     Batch("Resolution", fixedPoint,
  8.       ResolveReferences ::
  9.       ResolveRelations ::
  10.       ResolveSortReferences ::
  11.       NewRelationInstances ::
  12.       ImplicitGenerate ::
  13.       StarExpansion ::
  14.       ResolveFunctions ::
  15.       GlobalAggregates ::
  16.       UnresolvedHavingClauseAttributes ::
  17.       typeCoercionRules :_*),
  18.     Batch("Check Analysis", Once,
  19.       CheckResolution),
  20.     Batch("AnalysisOperators", fixedPoint,
  21.       EliminateAnalysisOperators)
  22.   )
复制代码



MultiInstanceRelations
NewRelationInstances
CaseInsensitiveAttributeReferences
LowercaseAttributeReferences
Resolution
ResolveReferences
ResolveRelations
ResolveSortReferences
NewRelationInstances
ImplicitGenerate
StarExpansion
ResolveFunctions
GlobalAggregates
UnresolvedHavingClauseAttributes
typeCoercionRules
Check Analysis
CheckResolution
AnalysisOperators
EliminateAnalysisOperators
这些rule都是使用transform对Unresolved
LogicalPlan进行操作,其中typeCoercionRules是对HiveQL语义进行处理,在其下面又定义了多个rule:PropagateTypes、ConvertNaNs、WidenTypes、PromoteStrings、BooleanComparisons、BooleanCasts、StringToIntegralCasts、FunctionArgumentConversion、CaseWhenCoercion、Division,同样了这些rule也是使用transform对Unresolved
LogicalPlan进行操作。这些rule操作后,使得LogicalPlan的信息变得丰满和易懂。下面拿其中的两个rule来简单介绍一下:
比如rule之ResolveReferences,最终调用LogicalPlan的resolveChildren对列名给一名字和序号,如name#67之列的,这样保持列的唯一性:
  1. /*源自 sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/analysis/Analyzer.scala */
  2.   object ResolveReferences extends Rule[LogicalPlan] {
  3.     def apply(plan: LogicalPlan): LogicalPlan = plan transformUp {
  4.       case q: LogicalPlan if q.childrenResolved =>
  5.         logTrace(s"Attempting to resolve ${q.simpleString}")
  6.         q transformExpressions {
  7.           case u @ UnresolvedAttribute(name) =>
  8.             // Leave unchanged if resolution fails.  Hopefully will be resolved next round.
  9.             val result = q.resolveChildren(name).getOrElse(u)
  10.             logDebug(s"Resolving $u to $result")
  11.             result
  12.         }
  13.     }
  14.   }
复制代码
  又比如rule之StarExpansion,其作用就是将Select * Fom tbl中的*展开,赋予列名:

  1. /*源自 sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/analysis/Analyzer.scala */
  2.   object StarExpansion extends Rule[LogicalPlan] {
  3.     def apply(plan: LogicalPlan): LogicalPlan = plan transform {
  4.       // Wait until children are resolved
  5.       case p: LogicalPlan if !p.childrenResolved => p
  6.       // If the projection list contains Stars, expand it.
  7.       case p @ Project(projectList, child) if containsStar(projectList) =>
  8.         Project(
  9.           projectList.flatMap {
  10.             case s: Star => s.expand(child.output)
  11.             case o => o :: Nil
  12.           },
  13.           child)
  14.       case t: ScriptTransformation if containsStar(t.input) =>
  15.         t.copy(
  16.           input = t.input.flatMap {
  17.             case s: Star => s.expand(t.child.output)
  18.             case o => o :: Nil
  19.           }
  20.         )
  21.       // If the aggregate function argument contains Stars, expand it.
  22.       case a: Aggregate if containsStar(a.aggregateExpressions) =>
  23.         a.copy(
  24.           aggregateExpressions = a.aggregateExpressions.flatMap {
  25.             case s: Star => s.expand(a.child.output)
  26.             case o => o :: Nil
  27.           }
  28.         )
  29.     }
  30.     /**
  31.      * Returns true if `exprs` contains a [[Star]].
  32.      */
  33.     protected def containsStar(exprs: Seq[Expression]): Boolean =
  34.       exprs.collect { case _: Star => true }.nonEmpty
  35.   }
  36. }
复制代码


4:Optimizer
Optimizer的功能就是将来自Analyzer的Analyzed LogicalPlan进行多种rule优化,生成Optimized LogicalPlan。Optimizer定义了3大类12个小类的优化rule:
  1. /*源自 sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/optimizer/Optimizer.scala */
  2. object Optimizer extends RuleExecutor[LogicalPlan] {
  3.   val batches =
  4.     Batch("Combine Limits", FixedPoint(100),
  5.       CombineLimits) ::
  6.     Batch("ConstantFolding", FixedPoint(100),
  7.       NullPropagation,
  8.       ConstantFolding,
  9.       LikeSimplification,
  10.       BooleanSimplification,
  11.       SimplifyFilters,
  12.       SimplifyCasts,
  13.       SimplifyCaseConversionExpressions) ::
  14.     Batch("Filter Pushdown", FixedPoint(100),
  15.       CombineFilters,
  16.       PushPredicateThroughProject,
  17.       PushPredicateThroughJoin,
  18.       ColumnPruning) :: Nil
  19. }
复制代码
  • Combine Limits 合并Limit
    • CombineLimits:将两个相邻的limit合为一个
  • ConstantFolding 常量叠加
    • NullPropagation 空格处理
    • ConstantFolding:常量叠加
    • LikeSimplification:like表达式简化
    • BooleanSimplification:布尔表达式简化
    • SimplifyFilters:Filter简化
    • SimplifyCasts:Cast简化
    • SimplifyCaseConversionExpressions:CASE大小写转化表达式简化
  • Filter Pushdown Filter下推
    • CombineFilters Filter合并
    • PushPredicateThroughProject 通过Project谓词下推
    • PushPredicateThroughJoin 通过Join谓词下推
    • ColumnPruning 列剪枝

这些优化rule都是使用transform对LogicalPlan进行操作,如合并、删除冗余、简化、剪枝等,是整个LogicalPlan变得更简洁更高效。
比如将两个相邻的limit进行合并,可以使用CombineLimits。象sql("select * from (select * from src limit 5)a limit 3 ") 这样一个SQL语句,会将limit 5和limit 3进行合并,只剩一个一个limit 3。



  1. /*源自 sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/optimizer/Optimizer.scala */
  2. object CombineLimits extends Rule[LogicalPlan] {
  3.   def apply(plan: LogicalPlan): LogicalPlan = plan transform {
  4.     case ll @ Limit(le, nl @ Limit(ne, grandChild)) =>
  5.       Limit(If(LessThan(ne, le), ne, le), grandChild)
  6.   }
  7. }
复制代码
又比如Null值的处理,可以使用NullPropagation处理。象sql("select count(null) from src where key is not null")这样一个SQL语句会转换成sql("select count(0) from src where key is not null")来处理。

  1. /*源自 sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/optimizer/Optimizer.scala */
  2. object NullPropagation extends Rule[LogicalPlan] {
  3.   def apply(plan: LogicalPlan): LogicalPlan = plan transform {
  4.     case q: LogicalPlan => q transformExpressionsUp {
  5.       case e @ Count(Literal(null, _)) => Cast(Literal(0L), e.dataType)
  6.       case e @ Sum(Literal(c, _)) if c == 0 => Cast(Literal(0L), e.dataType)
  7.       case e @ Average(Literal(c, _)) if c == 0 => Literal(0.0, e.dataType)
  8.       case e @ IsNull(c) if !c.nullable => Literal(false, BooleanType)
  9.       case e @ IsNotNull(c) if !c.nullable => Literal(true, BooleanType)
  10.       case e @ GetItem(Literal(null, _), _) => Literal(null, e.dataType)
  11.       case e @ GetItem(_, Literal(null, _)) => Literal(null, e.dataType)
  12.       case e @ GetField(Literal(null, _), _) => Literal(null, e.dataType)
  13.       case e @ EqualNullSafe(Literal(null, _), r) => IsNull(r)
  14.       case e @ EqualNullSafe(l, Literal(null, _)) => IsNull(l)
  15.       ......
  16.     }
  17.   }
  18. }
复制代码
对于具体的优化方法可以使用下一章所介绍的hive/console调试方法进行调试,用户可以使用自定义的优化函数,也可以使用sparkSQL提供的优化函数。使用前先定义一个要优化查询,然后查看一下该查询的Analyzed LogicalPlan,再使用优化函数去优化,将生成的Optimized LogicalPlan和Analyzed LogicalPlan进行比较,就可以看到优化的效果。





已有(3)人评论

跳转到指定楼层
feng01301218 发表于 2015-3-25 16:19:48
回复

使用道具 举报

ainubis 发表于 2015-3-30 03:38:55
回复

使用道具 举报

xianzhi558 发表于 2016-8-3 15:17:36
赞,多谢楼主
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条