nextuser 发表于 2013-10-25 10:45:28

为什么Hadoop处理的是大文件?

HDFS构建的第一个假设就是存放和处理的是大文件,但是直观的来看google出来的文件应该是小文件,这个大文件怎么理解呢吗?这些大文件包含是些什么内容呢吗?

lijian123841314 发表于 2013-10-25 10:45:28

常见的文件有日志文件,通过分析日志文件,可以得到很多用户信息,比如:使用不同操作系统和浏览器的用户比例,不同地区的用户比例等。
大文件有多个好处:
1、简化设计,每个块采用短连接处理即可,不需要维护过多状态
2、I/O更高效
3、元数据存储空间小
4、其它

easthome001 发表于 2013-10-25 10:45:28

比如网页文件,可以合并成一个1T的大文件
页: [1]
查看完整版本: 为什么Hadoop处理的是大文件?