levycui 发表于 2016-9-13 14:41:12

Spark Sql介绍及实际遇到的问题

本帖最后由 levycui 于 2016-9-13 18:01 编辑

问题导读:
1、什么是DataFrames?
2、什么是DataFrames Schema?
3、Spark 1.2 Sql踩过的坑有哪些?

static/image/hrline/3.gif

在spark sql 之前,spark团队是以兼容hive为目标而创建了shark,但是由于完全使用hive的东西,导致执行计划无法方便的做优化,并且hive的源码有一些线程安全的问题,所以spark团队不得不放弃的了shark。

spark团队在经历了shark的惨痛教训后,痛下决心,自行实现了名为spark sql 的执行引擎,其仅仅在hive方面hql parser(hive的语法与解析)、Hive Metastore和Hive SerDe,并由Catalyst负责执行计划生成和优化。

Spark Sql 的定位无疑是切合广大开发者,sql语法减少了学习成本,其的优化能力简化了开发者性能调优要求,让开发者不再每句代码都得小心翼翼的。

对hive的支持都移动到了 Hive on Spark中。

个人的观点来说,如果要在spark 上使用sql的方式的话,推荐以spark sql为主,对hive的支持与hive的发展总是有一定差距的,并且 spark 团队可能会调整Hive的支持代码.

spark sql 代码使用入口依然符合spark的习惯 - context的声明:
val sc: SparkContext // An existing SparkContext.
val sqlContext = new org.apache.spark.sql.SQLContext(sc)

如果要使用hive的支持,入口只需换为 HiveContext,而不使用SQLContext就行.

DataFrames 介绍
DataFrames 官方解释其为一个由多个有含义和名字的列组织数据的分布式集合, 其的表现形式比较类同与关系型数据库的表概念.

一般来说,都是优先使用DataFrames而不直接使用RDD,因为DataFrames会优化你的执行计划,而RDD则是忠实的按照你代码生成执行计划,并且spark sql 中提供很多方法便利地从多种数据源生成DataFrames.

如下即为从json文件中生成DataFrames以及一些DataFrames的基本使用:
val sc: SparkContext // An existing SparkContext.
val sqlContext = new org.apache.spark.sql.SQLContext(sc)

// 创建DataFrames
val df = sqlContext.read.json("examples/src/main/resources/people.json")

// 显示数据内容
df.show()
// agename
// null Michael
// 30   Andy
// 19   Justin

// 打印DataFrames的结构
df.printSchema()
// root
// |-- age: long (nullable = true)
// |-- name: string (nullable = true)

// 获取name列的数据
df.select("name").show()
// name
// Michael
// Andy
// Justin

// 获取name和age列的数据,但是age的每个值都+1
df.select(df("name"), df("age") + 1).show()
// name    (age + 1)
// Michael null
// Andy    31
// Justin20

// 获取age大于21的数据
df.filter(df("age") > 21).show()
// age name
// 30Andy

// 查询age的分组计数情况
df.groupBy("age").count().show()
// agecount
// null 1
// 19   1
// 30   1


spark sql也支持隐式将RDD转化为DataFrame,只需加入如下代码:

// this is used to implicitly convert an RDD to a DataFrame.
import sqlContext.implicits._

DataFrames Schema 介绍
DataFrame 可以以两种不同的方式从RDD转化而来,其实准确来说,转化只有一种方式,只是如何识别RDD,如何对应DataFrame的Schema信息有两种方式。
通过现有的class获取schema信息

例如如下代码:
val sqlContext = new org.apache.spark.sql.SQLContext(sc)
import sqlContext.implicits._

case class Person(name: String, age: Int)
val people = sc.textFile("examples/src/main/resources/people.txt").map(_.split(",")).map(p => Person(p(0), p(1).trim.toInt)).toDF()

但是case calss 在scala 2.10中字段数量是有限的,只能22个,为了规避这个问题,你可以通过实现scala的Product接口:
通过构建具体的schema信息,比如设定字段名、类型等

例如如下代码:
val sqlContext = new org.apache.spark.sql.SQLContext(sc)
import org.apache.spark.sql.Row;
import org.apache.spark.sql.types.{StructType,StructField,StringType};

val schema =
StructType(
    "name age".split(" ").map(fieldName => StructField(fieldName, StringType, true)))

val rowRDD = people.map(_.split(",")).map(p => Row(p(0), p(1).trim))

val peopleDataFrame = sqlContext.createDataFrame(rowRDD, schema)

Spark Sql Demo
我们的demo是简单的用sql的方式从csv文件中筛选数据。
package Demo

import org.apache.spark._
import org.apache.spark.sql._

import scala.collection.mutable

object SqlDemo {
def main(argment: Array): Unit = {
    val conf = new SparkConf().setAppName("test").setMaster("local") //本地调试运行
    val sc = new SparkContext(conf)// 建立spark操作上下文
    val sqlContext = new SQLContext(sc) // 建立spark sql 操作上下文

    val rowRDD = sc.textFile("xxxPath\\people.csv")   //读取 csv 文件
      .map(line => {                                  // 转换成 row 结构
      val data = line.split(";")                  // 切分字段
      val list = mutable.ArrayBuffer()
      list.append(data(0))                        //填充数据
      list.append(data(1).toInt)                   // 填充数据
      Row.fromSeq(list)                           //创建row
    })

    val fields = new mutable.ArrayBuffer()
    fields.append(StructField("name",StringType,true))//添加 name schema
    fields.append(StructField("age",IntegerType,true))//添加 age schema
    val schema = StructType(fields)                     //创建schema 结构

    val rdd = sqlContext.applySchema(rowRDD, schema)//将rdd与schema做匹配

    rdd.registerTempTable("people")               //注册临时表

    sqlContext.sql("select * from people where age >= 18")   // 筛选成年人士
      .collect()
      .foreach(println)

    sc.stop()
}
}


Spark Sql 坑
由于公司是1.2 的spark,所以我遇见的问题不一定在其他版本存在。

[*]    spark sql 的字段居然是大写区分的,囧,一旦大小写对应不上,sql异常,你就只能眼花了
[*]    spark sql 的错误提示信息太奇葩了,一点也不准确,比如你where 条件的字段名不对,绝对不会提示你哪个字段找不到,直接把select 的n多字段列出来,把你看晕死
[*]    本地测试时一定要使用多核心模式,否则多线程问题你是看不出来的,并且单核心真心慢死人
[*]    udf function 必须是可序列化到分布式环境的,如果出现无法序列化的问题,多半是你不小心使用了类成员等依赖于某个类的变量或方法,在scala中可放在伴生类中
[*]    spark sql StructField 的 DataType 无法转为 DecimalType, 当我们根据 StructField做处理时,DecimalType暂时无处处理
[*]    spark sql 的 schemaRDD 实际列少于定义,比如使用union all 时如果列数不一样,在运行时会报java.lang.ArrayIndexOutOfBoundsException错误,该异常是不是很好看懂呢?

来源:gitbooks
作者:fs7744


alu1105 发表于 2016-9-14 14:54:07

sparksql真心没有impala好用

905018111 发表于 2016-9-20 22:17:08

感谢楼主分享
页: [1]
查看完整版本: Spark Sql介绍及实际遇到的问题