about云日志分析项目准备：spark集群安装及常见配置项说明

本帖最后由 pig2 于 2017-1-16 18:38 编辑
问题导读

1.spark有哪些进程？
2.spark配置文件中常用属性的含义是什么？
3.spark序列化哪种方式效率更高？

接上文
about云日志分析项目准备：Hadoop2.x集群安装及常见配置项说明
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20793

此文是对下文中spark集群安装的一个说明文档
about云日志分析项目准备6：Hadoop、Spark集群搭建

spark进程：
master
worker

spark配置文件常用配置项说明：

spark.master 值为spark://master:7077主节点默认使用7077端口对外提供服务。

注：SPARK_MASTER_IP这里填写spark master的IP或者主机名，如果使用的是ip，在指定master调用服务时就只能使用ip，类似spark://192.168.1.39:7077.如果使用的是主机名，那就只能使用主机名了。类似这样spark://主机名:7077.推荐使用主机名，因为就算ip变了也不用老改配置文件。
SPARK_MASTER_IP在spark-env.sh文件中配置。

spark.serializer 值为 org.apache.spark.serializer.KryoSerializer
这里配置spark序列化，Kryo序列化可以大大提高性能
更多相关内容：

序列化对于提高分布式程序的性能起到非常重要的作用。一个不好的序列化方式（如序列化模式的速度非常慢或者序列化结果非常大）会极大降低计算速度。很多情况下，这是你优化Spark应用的第一选择。Spark试图在方便和性能之间获取一个平衡。Spark提供了两个序列化类库：

Java 序列化：在默认情况下，Spark采用Java的ObjectOutputStream序列化一个对象。该方式适用于所有实现了java.io.Serializable的类。通过继承 java.io.Externalizable，你能进一步控制序列化的性能。Java序列化非常灵活，但是速度较慢，在某些情况下序列化的结果也比较大。
Kryo序列化：Spark也能使用Kryo（版本2）序列化对象。Kryo不但速度极快，而且产生的结果更为紧凑（通常能提高10倍）。Kryo的缺点是不支持所有类型，为了更好的性能，你需要提前注册程序中所使用的类（class）。
你可以在创建SparkContext之前，通过调用System.setProperty("spark.serializer", "spark.KryoSerializer")，将序列化方式切换成Kryo。Kryo不能成为默认方式的唯一原因是需要用户进行注册；但是，对于任何“网络密集型”（network-intensive)的应用，我们都建议采用该方式。

最后，为了将类注册到Kryo，你需要继承 spark.KryoRegistrator并且设置系统属性spark.kryo.registrator指向该类，如下所示：
import com.esotericsoftware.kryo.Kryo

class MyRegistrator extends spark.KryoRegistrator {

  override def registerClasses(kryo: Kryo) {

    kryo.register(classOf[MyClass1])

    kryo.register(classOf[MyClass2])

  }

}


// Make sure to set these properties *before* creating a SparkContext!

System.setProperty("spark.serializer", "spark.KryoSerializer")

System.setProperty("spark.kryo.registrator", "mypackage.MyRegistrator")

val sc = new SparkContext(...)
复制代码
Kryo 文档描述了很多便于注册的高级选项，例如添加用户自定义的序列化代码。
如果对象非常大，你还需要增加属性spark.kryoserializer.buffer.mb的值。该属性的默认值是32，但是该属性需要足够大以便能够容纳需要序列化的最大对象。
最后，如果你不注册你的类，Kryo仍然可以工作，但是需要为了每一个对象保存其对应的全类名（full class name),这是非常浪费的。
摘自http://spark.incubator.apache.org/docs/latest/tuning.html

spark.eventLog.enabled 值为 true
是否记录 Spark事件，用于应用程序在完成后重构 webUI。

spark.eventLog.dir 值为file:///data/spark_data/history/event-log
如果spark.eventLog.enabled为 true，该属性为记录spark事件的根目录。在此根目录中，Spark为每个应用程序创建分目录，并将应用程序的事件记录到在此目录中。用户可以将此属性设置为HDFS目录，以便history server读取历史记录文件。

spark.history.fs.logDirectory值为 file:///data/spark_data/history/spark-events
存放历史记录文件的目录。可以是Hadoop APIs支持的任意文件系统。

spark.eventLog.compress 值为 true
否压缩记录Spark事件，前提spark.eventLog.enabled为true，默认使用的是snappy。

更多属性
Spark1.0.0 属性配置