hadoop-集群管理(3)——不常用参数
时间:2014-12-30 23:15 来源:linux.it.net.cn 作者:IT
1. hadoop日志目录
默认存放在hadoop安装目录下的logs文件夹中,也可以通过hadoop-env.sh中的HADOOP_LOG_DIR变量来修改。一般建议修改默认值,使之独立于hadoop安装目录,这样便于以后的升级。
hadoop日志文件的名称格式为“hadoop-用户名-守护进程名-本地主机名.log”。例如“hadoop-tianyc-namenode-Route.log”就是我的hadoop集群中的一个日志文件。其中“用户名”部分对应hadoop-env.sh文件中的HADOOP_IDENT_STRING变量,可以通过修改该变量来修改日志文件中的用户名信息。
2. SSH设置
hadoop-env.sh文件中的HADOOP_SSH_OPTS变量可以向SSH传递很多选项,进行SSH的自定义。例如:
-
使用ConnectTimeout选项来设定减小连接超时,可以避免控制脚本长时间等待宕机节点的响应(当然,也不能设置得太低,使得繁忙节点被跳过)。
-
使用StrickHostKeyChecking选项设定为no,则会将新主机键加入已知主机文件中。该值默认为ask,不适合大型集群环境。
3. 使用rsync
通过rsync工具,hadoop控制脚本能够将配置文件分发到集群的各个节点中。默认该功能未启用,可以通过设置hadoop-env.sh中的HADOOP_MASTER变量启动。启用rsync后,当工作节点的守护进程启动后,会把以HADOOP_MASTER为根的目录树与本地的HADOOP_INSTALL目录同步。
4. 与rsync相关的变量
在大型集群中,若rsync已启用,则集群启动时所有工作节点几乎同时启动,且同时向主节点发出rsync请求,可能导致主节点瘫痪。这就需要设置hadoop-env.sh中的另一个变量:HADOOP_SLAVE_SLEEP,将它设置为一小段时间(例如0.1秒)。该变量度量为“秒”。
(责任编辑:IT)
1. hadoop日志目录 默认存放在hadoop安装目录下的logs文件夹中,也可以通过hadoop-env.sh中的HADOOP_LOG_DIR变量来修改。一般建议修改默认值,使之独立于hadoop安装目录,这样便于以后的升级。 hadoop日志文件的名称格式为“hadoop-用户名-守护进程名-本地主机名.log”。例如“hadoop-tianyc-namenode-Route.log”就是我的hadoop集群中的一个日志文件。其中“用户名”部分对应hadoop-env.sh文件中的HADOOP_IDENT_STRING变量,可以通过修改该变量来修改日志文件中的用户名信息。 2. SSH设置 hadoop-env.sh文件中的HADOOP_SSH_OPTS变量可以向SSH传递很多选项,进行SSH的自定义。例如:
3. 使用rsync 通过rsync工具,hadoop控制脚本能够将配置文件分发到集群的各个节点中。默认该功能未启用,可以通过设置hadoop-env.sh中的HADOOP_MASTER变量启动。启用rsync后,当工作节点的守护进程启动后,会把以HADOOP_MASTER为根的目录树与本地的HADOOP_INSTALL目录同步。 4. 与rsync相关的变量 在大型集群中,若rsync已启用,则集群启动时所有工作节点几乎同时启动,且同时向主节点发出rsync请求,可能导致主节点瘫痪。这就需要设置hadoop-env.sh中的另一个变量:HADOOP_SLAVE_SLEEP,将它设置为一小段时间(例如0.1秒)。该变量度量为“秒”。 (责任编辑:IT) |