> Linux集群 > Hadoop >

hadoop启动脚本解读

本文以start-dfs.sh为例向下延展解释各脚本的作用和相互关系,对于start-yarn.sh同理可证。下图解释了各个脚本的作用:

 


注意:slaves.sh在通过SSH推送命令时,会首先读取$HADOOP_SLAVE_NAMES这个数组中的机器列表作为推送目标,当这个数组为空时才使用slaves文件中给出的机器列表。实际上slaves.sh这个脚本的命名很不好,它会给人一种误导,这个脚本实际上是一个向目标机器列表推送命令的util脚本,而不是只向slave节点通信的!这一点在start-dfs.sh(start-yarn.sh)脚本中都有明确的体现,实际上:start-dfs.sh所有的命令,不管是启动单个的namenode还是启动多个datanode,都是通过hadoop-daemons.sh,再通过slaves.sh推送到目标机器上的,唯一不同的地方是:在启动namenode和secondary-namenode的时候都通过--hostnames参数显示地给出了命令的推送目标(注:将--hostnames参数的值会赋给HADOOP_SLAVE_NAMES这个动作发生在libexec/hadoop-config.sh脚本里,在hadoop-daemons.sh里,调用slaves.sh之前会先执行hadoop-config.sh,完成对HADOOP_SLAVE_NAMES的设值)而在启动datanode时,则不会设置--hostnames的值,这样HADOOP_SLAVE_NAMES的值会从slaves文件中读取,也就datanode的列表。关于这一过程,请参考下图!

 



(责任编辑:IT)