Apache Hadoop高级篇:hadoop的兼容性说明【下】
问题导读1.HDFS元数据有几种升级方式?
2.Hadoop 配置文件的作用是什么?
3.自定义配置属性keys应注意什么问题?
static/image/hrline/4.gif
上一篇
Apache Hadoop高级篇:hadoop的兼容性说明-相关hadoop项目版本之间的关系等【上】
http://www.aboutyun.com/thread-16013-1-1.html
REST APIs
REST API兼容性对应于两个请求(URL)的和响应于每个请求(内容,其可含有其它URL)。
[*]WebHDFS- Stable
[*]ResourceManager
[*]NodeManager
[*]MR Application Master
[*]History Server
[*]Timeline Server v1 REST API
Policy
API 注释稳定,至少在一个主版本中保存兼容,可能在主版本的新版本的REST API 被弃用
Metrics/JMX
尽管 Metrics API由Java API兼容管理,实际metrics暴露给hadoop为用户实现自动化使用它们(脚本等)。添加额外的metrics是兼容的。修改(例如,改变单位或测量)或则移除已存在的metrics破坏兼容性,类似的改变 JMX MBean对象名称也破坏兼容性。
Policy
在一个主版本内容Metrics应保持兼容性。
文件格式和元数据
用户和系统级数据(包括元数据)存储在不同格式的文件。改变元数据或则存储数据/元数据的文件格式将导致版本间不兼容。
用户级文件格式
改变终端用户存储数据的格式阻碍了后面版本的访问,因此非常重要保持文件格式的的兼容性。人们总是在现有的格式上添加一个“新”的格式改进。这些格式例子包括har, war, SequenceFileFormat 等.
Policy
不向前兼容的用户文件格式改变是非常严格的在主版本。新发布版本期望读取已有格式,但写入数据的格式可能与先前版本不兼容。社区更倾向于创建一个新的格式,来代替对现有格式的不兼容的改变。
系统内部文件格式
hadoop内部数据以文件的方式存储,改变这些格式会导致不兼容。这种改变不像用户级别文件具有毁灭性,兼容性可以被打破的policy是重要的。
MapReduce
MapReduce使用格式如 I-File 存储MapReduce指定数据
Policy
MapReduce内部是格式如IFile在一个版本内保持通用性。改变这些格式会引发运行中的jobs失败,因此我们应该确保新的客户端以兼容的方式能够取shuffle数据从旧的服务端
HDFS Metadata
HDFS元数据(镜像和edit logs)在一个指定的格式。无论是格式还是元数据改变会阻止后面版本读取旧版本元数据。这种不兼容的变化可能需要hdfs升级转换元数据使它能访问。一些改变需要更多的升级。取决于不相容的变化的程度:
自动:image自动升级,无需显示升级
直接:image是可升级的,但可能需要一个显式发布“升级”。
间接:image是可升级的,但是可能首先升级到中间的发布版
不可升级:image不可升级的
Policy
一个发布版升级必须允许集群回滚到旧版本和他的旧的磁盘格式。回滚需要还原原始数据,但是不需要恢复更新的数据
HDFS元数据改变必须升级通过任一升级方式--- automatic【自动】, direct 【直接】或则 indirect【间接】.
更多的细节policies在各种升级方式中还有待考虑
命令行界面 (CLI)
Hadoop的命令行程序,可以使用可直接通过系统shell或通过shell脚本。改变一个命令的路径,删除或重命名的命令行选项,参数的顺序,或则命令返回代码和打破输出兼容性,可能对用户造成不利影响。
Policy
在随后的主版本中将被移除或则不兼容的修改之前,在主要版本中,CLI命令被弃用(当使用时会有警告)
Web UIWeb UI,web页面的详细内容和页面布局,改变潜在的接口可能会影响页面信息
Policy
Web pages在任何时候允许不兼容性改变。用户期望使用 REST APIs 获取任何信息
Hadoop 配置文件
用户使用(1)hadoop定义属性配置和提供暗示,以hadoop(2)定制属性传递信息给job.因此配置属性的兼容性是双重的:
[*]修改key-names, values的单位, 和hadoop自定义属性的默认值
[*]自定义配置属性keys不能与hadoop定义属性命名空间冲突。通常情况下,用户应该避免使用hadoop前缀: hadoop, io, ipc, fs, net, file, ftp, s3, kfs, ha, file, dfs, mapred, mapreduce, yarn.
Policy
Hadoop定义的属性是被弃用的至少一个主要发布之前被删除。修改单位现有属性是不允许的。
在主要版本或则小版本中,hadoop自定义属性值可以被改变
当前没有明确的policy规则,当新的前缀被添加或则删除。前缀应该避免自定义配置属性。尽管如此,如上所述,用户应避免使用使用Hadoop的前缀:hadoop, io, ipc, fs, net, file, ftp, s3, kfs, ha, file, dfs, mapred, mapreduce, yarn.
目录结构
源代码,工具(源和测试),用户日志,配置文件,output 和 job history ,存储在本地磁盘或则hdfs.改变。改变用户访问文件的目录结构破坏兼容性,即使源路径通过 symbolic links保存。(如果,例如servlet访问路径,被配置为不遵循符号链接)
Policy
布局的源代码和生成的构件可以随时更改,特别是跨主要版本。在主要版本中,开发者尝试(没有保证)保存目录结构;尽管如此,独立的文件可以被添加/移除/删除。最好的方式是补丁与提交的Apache源码树的源码保持同步。
目录结构,配置文件,用户日志,job history被保存在一个主版本内跨越小版本和发布点(point releases)
Java Classpath
用户应用程序构建可能添加所有的hadoop jars(包括hadoop 库依赖)到应用程序classpath。添加新的依赖或则升级已存在的依赖可能影响这些应用程序的classpaths
Policy
当前没有策略,hadoop依赖可以改变。
环境变量
用户和相关项目经常使用导出的环境变量(如HADOOP_CONF_DIR),因此,删除或重命名的环境变量是一个不相容的改变。
Policy
当环境变量改变,没有Policy。开发者在版本中尝试限制改变。
构建构件
hadoop使用maven管理项目,更改构件会影响现在的用户工作流。
Policy
测试构件:测试jars产生内部使用非常严格的,不希望在hadoop外部使用,类似APIs注释@Private, @Unstable.
构建构件:hadoop客户端构件 (maven groupId:artifactId)在主版本中保持兼容性,其它构件可以以不兼容的方式改变。
硬件/软件需求
跟上硬件的最新进展,操作系统,JVMs,和其他软件,新的hadoop发行版或则他们的一些新的功能需要同样的更高版本。对于特定的环境,升级Hadoop可能需要升级相关的软件组件。
Policies
硬件:
1.结构:社区有没有计划对Hadoop的具体结构,但可以有家族特定的优化。
2.最少资源:在hadoop守护进程所需的资源没有保证期间,社区尝试不增加需求在发布的小版本内。
操作系统:在小版本中,社区将试图保持相同的操作系统的要求(OS内核版本)。当前GNU/Linux和Microsoft Windows 是官方支持的,社区hadoop工作的相当不错也在其它操作系统比如Apple MacOSX, Solaris 等.
JVM不会改变跨点发布的同一个小版本内,除非如果JVM版本变的不支持。Minor/major版本以后可能需要一些/所有的支持的操作系统的JVM。
其它软件:社区试图保持由Hadoop的所需的额外软件的最低版本。例如,SSH,Kerberos身份等。
参考:
下面是与主题相关的一些相关JIRAs和pages:
Here are some relevant JIRAs and pages related to the topic:
[*]The evolution of this document - HADOOP-9517
[*]Binary compatibility for MapReduce end-user applications between hadoop-1.x and hadoop-2.x - MapReduce Compatibility between hadoop-1.x and hadoop-2.x
[*]Annotations for interfaces as per interface classification schedule - HADOOP-7391Hadoop Interface Classification
[*]Compatibility for Hadoop 1.x releases - HADOOP-5071
[*]The Hadoop Roadmap page that captures other release policies
页:
[1]