关于如何使用HDFS上的数据

如上图。
现在项目所需要的数据都以这种格式存在HDFS上。但是一直都没进入到实际使用中。最近马上要结合hadoop进行开发了，
小弟有几个疑问，希望大神能解答一下：
1、目前这些数据说是要通过一些算法什么进行计算。但是我要怎么能使用这些数据？
2、hive 是有大量查询操作的时候会使用到。我们现在需要利用数据计算出结果，会用到hive吗？
3、hbase到底会在什么情况下使用？（而且hbase上的数据格式跟HDFS的不一样，这个我们做计算会需要用到hbase吗？）
4、写map reduce程序或者是spark 操作数据，是怎么操作HDFS上的数据的？（这个很困惑）
5、这些数据我都是利用sqoop从各个数据库中导入到HDFS上的。都是这种txt格式。这种格式有什么缺点吗？
6、希望大神能大概说一下，针对目前我们的需要（通过算法结合数据进行计算）需要使用到Hadoop的哪些功能？

小弟也是第一次接触hadoop 之前一直做的都是把数据存到hdfs上。现在马上要更深层次应用了。希望大家指点一下

muyannian · 发表于 2014-12-25 17:06:11

1、目前这些数据说是要通过一些算法什么进行计算。但是我要怎么能使用这些数据？
有很多算法是现成的，比如spark有专门的算法库，当然hadoop中也可以嵌入算法，对于hdfs的这些数据的使用，其实很简单，但是这个需要你有最基本的常识，否则还是跟说书一样。
首先我们需要会使用hadoop shell，这是最最基本的，（只要安装部署好集群，然后使用hadoop命令即可），详细参考：
Hadoop Shell命令字典（可收藏）
这里面的

shell命令
是查看目录：
hadoop fs -ls /user/hadoop/file1
查看hdfs文件内容：
hadoop fs -tail pathname

--------------------------------------------------------------
程序中操作hdfs文件

那么我们在程序中，如何使用这些数据，最基本的形式，如下

hdfs://aboutyun:9000/yy1
复制代码

这句话的含义就是访问：hdfs文件下的yy1文件。

当然还有api，对hdfs的编程，也就是对hdfs各种数据的使用，比如上传、创建文件、创建目录等

Java创建hdfs文件实例
hadoop实战：Java对hdfs的编程

2、hive 是有大量查询操作的时候会使用到。我们现在需要利用数据计算出结果，会用到hive吗？
hive在做数据统计分析的时候会用到，hbase在大量查询的时候会用到。

下面详细可以参考，主要能够明白，hive做统计，hbase查询即可
它们的区别
hive与hbase的十大区别与联系

hive统计：
面试题：分别使用Hadoop MapReduce、hive统计手机流量

不错：基于hive的日志数据统计实战

hbase查询：
每天有50G左右的数据文件，存入HBASE中做查询的方案

优化hbase的查询优化-大幅提升读写速率

HBase如何实现多条件查询

Hbase使用filter快速高效查询

3、hbase到底会在什么情况下使用？（而且hbase上的数据格式跟HDFS的不一样，这个我们做计算会需要用到hbase吗？）
hbase上述已经说的很明白，大数据量查询的时候会用到，比如hbase就是谷歌的bigtable，我们谷歌查询为什么这么快，就是因为使用了bigtable.
你们会不会用到，就看你们业务了。

4、写map reduce程序或者是spark 操作数据，是怎么操作HDFS上的数据的？（这个很困惑）
mapreduce会使用hadoop api操作hdfs数据，跟第一个问题类似，详细参考
新手指导，该如何在开发环境中，创建mapreduce程序

MapReduce初级案例（3）：使用MapReduce实现平均成绩

5、这些数据我都是利用sqoop从各个数据库中导入到HDFS上的。都是这种txt格式。这种格式有什么缺点吗？
数据的格式多种多样的，看你什么项目，如果你们的项目采用的是log的方式，不能说这是缺点，程序能兼容就行。

6、希望大神能大概说一下，针对目前我们的需要（通过算法结合数据进行计算）需要使用到Hadoop的哪些功能？
hadoop包含了hdfs文件系统及mapreduce计算模型，如果使用了hadoop也跑不出这两个，可能会和其他工具相结合。

LoveJW · 发表于 2014-12-25 17:38:35

muyannian 发表于 2014-12-25 17:06
1、目前这些数据说是要通过一些算法什么进行计算。但是我要怎么能使用这些数据？
有很多算法是现成的 ...

hdfs://aboutyun:9000/yy1 你说的类似这段代码访问hdfs文件下的yy1文。
现在我们要用神经网络算法操作数据。这些数据需要具体点怎么做？？或者说怎么个流程？这些需要在map reduce程序里写吧？

jixianqiuxue · 发表于 2014-12-25 17:52:18

LoveJW 发表于 2014-12-25 17:38
hdfs://aboutyun:9000/yy1 你说的类似这段代码访问hdfs文件下的yy1文。
现在我们要用神经网络算法操作 ...

算法只是一个称呼罢了，在牛逼的思想，也是由代码来构成的，所以如果想操作hdfs，逃不出hdfs api。

sunny62520 · 发表于 2014-12-25 22:19:33

了解一下数据仓库，把这些数据用合理的模型组织起来，用来做报表或者进行挖掘

图文精华

关于如何使用HDFS上的数据

已有(4)人评论

推荐 /2