为什么Hadoop处理的是大文件?
HDFS构建的第一个假设就是存放和处理的是大文件,但是直观的来看google出来的文件应该是小文件,这个大文件怎么理解呢吗?这些大文件包含是些什么内容呢吗? 常见的文件有日志文件,通过分析日志文件,可以得到很多用户信息,比如:使用不同操作系统和浏览器的用户比例,不同地区的用户比例等。大文件有多个好处:
1、简化设计,每个块采用短连接处理即可,不需要维护过多状态
2、I/O更高效
3、元数据存储空间小
4、其它 比如网页文件,可以合并成一个1T的大文件
页:
[1]