利用sparkSQL 做数据的逻辑处理 得到结论的 代码 并不复杂
原因是 因为
1.spark 本身分布式的原理,并不涉及多线程的代码编写
2.sparkSql的用起来的Sql的代码,风格有些接近,毕竟都是在处理数据
3.sparkSql 提供的scala 的api 可以从中找到各种方法
4.如果没有那么自己写udf
注意事项:
1.整个逻辑因为只能运行在 一个sc中,sparkContext中,所以,要写一个单列
2.代码中用到了许多隐士转换
需要引用 import sqlHiveContext.implicits._
其中 sqlHiveContext是单列中的HiveContext
3.自定义的udf 函数 val udftest=udf (funClass.funName _)
4.需要用到的常见的包 org.apache.spark.sql.functions._