本帖最后由 desehawk 于 2017-11-27 14:46 编辑
首先我这里将这个文件保存为question.txt文件,并且上传到hdf。
然后进入spark-shell去读取这个文件,这里使用的是spark2
首先通过SparkSesstion创建sparkcontext
[mw_shl_code=scala,true] val sc=spark.sparkContext[/mw_shl_code]
然后读取文件
[mw_shl_code=scala,true]val file=sc.textFile("/question.txt")[/mw_shl_code]
我们来看读取的内容
这时候我们就可以操作了
比如我们寻找时间为:20171123120027的列:
[mw_shl_code=scala,true]val query= file.filter(x=>x.contains("20171123120027"))[/mw_shl_code]
这样query里面就是我们想要得到的内容,我们打印query
ok,这样就得到我们想要的结果了。如果排序,可以在后面在加上.sortByKey()
|