Hadoop二次开发必备，Hadoop源码分析（一）

本帖最后由 pig2 于 2014-1-16 00:40 编辑

Google的核心竞争技术是它的计算平台。Google的大牛们用了下面5篇文章，介绍了它们的计算设施。
GoogleCluster
Chubby
GFS
BigTable
MapReduce
很快，Apache上就出现了一个类似的解决方案，目前它们都属于Apache的Hadoop项目，对应的分别是：
Chubby-->ZooKeeper
GFS-->HDFS
BigTable-->HBase
MapReduce-->Hadoop
目前，基于类似思想的Open Source项目还很多，如Facebook用于用户分析的Hive。
HDFS作为一个分布式文件系统，是所有这些项目的基础。分析好HDFS，有利于了解其他系统。由于Hadoop的HDFS和MapReduce是同一个项目，我们就把他们放在一块，进行分析。
下图是MapReduce整个项目的顶层包图和他们的依赖关系。Hadoop包之间的依赖关系比较复杂，原因是HDFS提供了一个分布式文件系统，该系统提供API，可以屏蔽本地文件系统和分布式文件系统，甚至象Amazon S3这样的在线存储系统。这就造成了分布式文件系统的实现，或者是分布式文件系统的底层的实现，依赖于某些貌似高层的功能。功能的相互引用，造成了蜘蛛网型的依赖关系。一个典型的例子就是包conf，conf用于读取系统配置，它依赖于fs，主要是读取配置文件的时候，需要使用文件系统，而部分的文件系统的功能，在包fs中被抽象了。

Hadoop的关键部分集中于图中蓝色部分，这也是我们考察的重点。

下面给出了Hadoop的包的功能分析。

由于Hadoop的MapReduce和HDFS都有通信的需求，需要对通信的对象进行序列化。Hadoop并没有采用Java的序列化，而是引入了它自己的系统。org.apache.hadoop.io中定义了大量的可序列化对象，他们都实现了Writable接口。实现了Writable接口的一个典型例子如下：

        public class MyWritable implements Writable {      
             // Some data           
             private int counter;      
             private long timestamp;      
              
             public void write(DataOutput out) throws IOException {      
                 out.writeInt(counter);      
                  out.writeLong(timestamp);      
             }      
                   
             public void readFields(DataInput in) throws IOException {      
                 counter = in.readInt();      
                 timestamp = in.readLong();      
             }      
              
             public static MyWritable read(DataInput in) throws IOException {      
                 MyWritable w = new MyWritable();      
                 w.readFields(in);      
                 return w;      
             }      
         }   
复制代码

其中的write和readFields分别实现了把对象序列化和反序列化的功能，是Writable接口定义的两个方法。

当我们讨论Hadoop的RPC时，我们会提到RPC上交换的信息，必须是Java的基本类型，String和Writable接口的实现类，以及元素为以上类型的数组。ObjectWritable对象保存了一个可以在RPC上传输的对象和对象的类型信息。这样，我们就有了一个万能的，可以用于客户端/服务器间传输的Writable对象。例如，我们要把上面例子中的对象作为RPC请求，需要根据MyWritable创建一个ObjectWritable，ObjectWritable往流里会写如下信息

对象类名长度，对象类名，对象自己的串行化结果

这样，到了对端，ObjectWritable可以根据对象类名创建对应的对象，并解串行。应该注意到，ObjectWritable依赖于WritableFactories，那存储了Writable子类对应的工厂。我们需要把MyWritable的工厂，保存在WritableFactories中（通过WritableFactories.setFactory）。

oxtaw · 发表于 2014-1-16 10:00:37

谢谢分享！！！

GeneralJing · 发表于 2014-1-24 09:34:07

开始学习第一篇，努力理解，认真思考

图文精华

Hadoop二次开发必备，Hadoop源码分析（一）

已有(2)人评论

推荐 /2