Spark Sql介绍及实际遇到的问题
本帖最后由 levycui 于 2016-9-13 18:01 编辑问题导读:
1、什么是DataFrames?
2、什么是DataFrames Schema?
3、Spark 1.2 Sql踩过的坑有哪些?
static/image/hrline/3.gif
在spark sql 之前,spark团队是以兼容hive为目标而创建了shark,但是由于完全使用hive的东西,导致执行计划无法方便的做优化,并且hive的源码有一些线程安全的问题,所以spark团队不得不放弃的了shark。
spark团队在经历了shark的惨痛教训后,痛下决心,自行实现了名为spark sql 的执行引擎,其仅仅在hive方面hql parser(hive的语法与解析)、Hive Metastore和Hive SerDe,并由Catalyst负责执行计划生成和优化。
Spark Sql 的定位无疑是切合广大开发者,sql语法减少了学习成本,其的优化能力简化了开发者性能调优要求,让开发者不再每句代码都得小心翼翼的。
对hive的支持都移动到了 Hive on Spark中。
个人的观点来说,如果要在spark 上使用sql的方式的话,推荐以spark sql为主,对hive的支持与hive的发展总是有一定差距的,并且 spark 团队可能会调整Hive的支持代码.
spark sql 代码使用入口依然符合spark的习惯 - context的声明:
val sc: SparkContext // An existing SparkContext.
val sqlContext = new org.apache.spark.sql.SQLContext(sc)
如果要使用hive的支持,入口只需换为 HiveContext,而不使用SQLContext就行.
DataFrames 介绍
DataFrames 官方解释其为一个由多个有含义和名字的列组织数据的分布式集合, 其的表现形式比较类同与关系型数据库的表概念.
一般来说,都是优先使用DataFrames而不直接使用RDD,因为DataFrames会优化你的执行计划,而RDD则是忠实的按照你代码生成执行计划,并且spark sql 中提供很多方法便利地从多种数据源生成DataFrames.
如下即为从json文件中生成DataFrames以及一些DataFrames的基本使用:
val sc: SparkContext // An existing SparkContext.
val sqlContext = new org.apache.spark.sql.SQLContext(sc)
// 创建DataFrames
val df = sqlContext.read.json("examples/src/main/resources/people.json")
// 显示数据内容
df.show()
// agename
// null Michael
// 30 Andy
// 19 Justin
// 打印DataFrames的结构
df.printSchema()
// root
// |-- age: long (nullable = true)
// |-- name: string (nullable = true)
// 获取name列的数据
df.select("name").show()
// name
// Michael
// Andy
// Justin
// 获取name和age列的数据,但是age的每个值都+1
df.select(df("name"), df("age") + 1).show()
// name (age + 1)
// Michael null
// Andy 31
// Justin20
// 获取age大于21的数据
df.filter(df("age") > 21).show()
// age name
// 30Andy
// 查询age的分组计数情况
df.groupBy("age").count().show()
// agecount
// null 1
// 19 1
// 30 1
spark sql也支持隐式将RDD转化为DataFrame,只需加入如下代码:
// this is used to implicitly convert an RDD to a DataFrame.
import sqlContext.implicits._
DataFrames Schema 介绍
DataFrame 可以以两种不同的方式从RDD转化而来,其实准确来说,转化只有一种方式,只是如何识别RDD,如何对应DataFrame的Schema信息有两种方式。
通过现有的class获取schema信息
例如如下代码:
val sqlContext = new org.apache.spark.sql.SQLContext(sc)
import sqlContext.implicits._
case class Person(name: String, age: Int)
val people = sc.textFile("examples/src/main/resources/people.txt").map(_.split(",")).map(p => Person(p(0), p(1).trim.toInt)).toDF()
但是case calss 在scala 2.10中字段数量是有限的,只能22个,为了规避这个问题,你可以通过实现scala的Product接口:
通过构建具体的schema信息,比如设定字段名、类型等
例如如下代码:
val sqlContext = new org.apache.spark.sql.SQLContext(sc)
import org.apache.spark.sql.Row;
import org.apache.spark.sql.types.{StructType,StructField,StringType};
val schema =
StructType(
"name age".split(" ").map(fieldName => StructField(fieldName, StringType, true)))
val rowRDD = people.map(_.split(",")).map(p => Row(p(0), p(1).trim))
val peopleDataFrame = sqlContext.createDataFrame(rowRDD, schema)
Spark Sql Demo
我们的demo是简单的用sql的方式从csv文件中筛选数据。
package Demo
import org.apache.spark._
import org.apache.spark.sql._
import scala.collection.mutable
object SqlDemo {
def main(argment: Array): Unit = {
val conf = new SparkConf().setAppName("test").setMaster("local") //本地调试运行
val sc = new SparkContext(conf)// 建立spark操作上下文
val sqlContext = new SQLContext(sc) // 建立spark sql 操作上下文
val rowRDD = sc.textFile("xxxPath\\people.csv") //读取 csv 文件
.map(line => { // 转换成 row 结构
val data = line.split(";") // 切分字段
val list = mutable.ArrayBuffer()
list.append(data(0)) //填充数据
list.append(data(1).toInt) // 填充数据
Row.fromSeq(list) //创建row
})
val fields = new mutable.ArrayBuffer()
fields.append(StructField("name",StringType,true))//添加 name schema
fields.append(StructField("age",IntegerType,true))//添加 age schema
val schema = StructType(fields) //创建schema 结构
val rdd = sqlContext.applySchema(rowRDD, schema)//将rdd与schema做匹配
rdd.registerTempTable("people") //注册临时表
sqlContext.sql("select * from people where age >= 18") // 筛选成年人士
.collect()
.foreach(println)
sc.stop()
}
}
Spark Sql 坑
由于公司是1.2 的spark,所以我遇见的问题不一定在其他版本存在。
[*] spark sql 的字段居然是大写区分的,囧,一旦大小写对应不上,sql异常,你就只能眼花了
[*] spark sql 的错误提示信息太奇葩了,一点也不准确,比如你where 条件的字段名不对,绝对不会提示你哪个字段找不到,直接把select 的n多字段列出来,把你看晕死
[*] 本地测试时一定要使用多核心模式,否则多线程问题你是看不出来的,并且单核心真心慢死人
[*] udf function 必须是可序列化到分布式环境的,如果出现无法序列化的问题,多半是你不小心使用了类成员等依赖于某个类的变量或方法,在scala中可放在伴生类中
[*] spark sql StructField 的 DataType 无法转为 DecimalType, 当我们根据 StructField做处理时,DecimalType暂时无处处理
[*] spark sql 的 schemaRDD 实际列少于定义,比如使用union all 时如果列数不一样,在运行时会报java.lang.ArrayIndexOutOfBoundsException错误,该异常是不是很好看懂呢?
来源:gitbooks
作者:fs7744
sparksql真心没有impala好用 感谢楼主分享
页:
[1]