分享

为什么HDFS不适合数据仓库分析?

easthome001 发表于 2013-10-25 10:45:57 [显示全部楼层] 回帖奖励 阅读模式 关闭右栏 2 11789
为什么HDFS不适合数据仓库分析,个人认为可以从HDFS产生的背景和它所能提供的特性两个方面来分析,有关HDFS特性的,我在http://bbs.hadoopor.com/thread-468-1-1.html一文中已经有了初步说明,后续会继续深入分析,本文只从它的背景来分析原因。HDFS诞生于搜索,服务于Lucene/Nutch,使用它来存储网络蜘蛛爬过来的网页,网页显然是完全非结构化的数据,它再依托MapReduce来分析这些非结构化数据,并转换结构化数据,其中可以使用HBase来管理这些结果数据。GFS的背景估计也差不多,但无法确认。
    数据仓库则与网页不同,它是完全结构化的数据,HDFS不是最佳选择,虽然它也能满足大部分功能需求,但是无疑DTS是更佳的选择,Table更贴近数据仓库,对数据仓库来说需要的是一张大表,而非一个大文件。随着研究持续的深入,我相信这个区别会越来越明显。
    另外,还有个有待去澄清,NoSQL是什么吗?可以明确的说,并不是指不使用SQL,将它理解成非RDBMS可能更好。
欢迎大家加入讨论,提出不同观点。

已有(2)人评论

跳转到指定楼层
lovejunxia 发表于 2013-10-25 10:45:57
HDFS是一个文件系统,基于的模型是目录树模型;关系型数据仓库,基于的模型是关系模型,所谓关系模型是指以统一的观点看待数据,都是表结构,表与表之间相互依赖。数据库模型分很多种,关系模型,层次模型,图模型,key-value模型。目录树模型与数据库模型之间没有本质的区别,都是对待数据的一种逻辑观点,都属于数据模型。由于用目录树模型管理数据在许多场合不能满足需求,因此,要使它的功能强大,大多在其上再加一层数据模型。在目录树模型之前,文件系统是flat 型的,由于i-node线性,效率太低,因此用层次型取而代之,提高单个目录下的搜索效率。
回复

使用道具 举报

dgxl 发表于 2013-10-25 10:45:57
那也不绝对, 数据仓库的某些应用比如复杂的统计和排序需要做全表的扫描, 用HDFS做全量运算反而能发挥吞吐量的优势, 提高效率
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条