hadoop各配置文件中各配置项详细说明
时间:2014-11-04 18:31 来源:linux.it.net.cn 作者:it
3.1. 环境变量 hadoop-env.sh
name
value
含义
JAVA_HOME
/usr/java/jdk1.6.0_30
JDK所在路径
3.2. HDFS配置
3.2.1. 配置 core-site.xml
Name
value
含义
fs.default.name
hdfs://namenode
指定默认的文件系统,默认端口 8020。
io.file.buffer.size
65536
指定缓冲区的大小,默认4K太小,64k(65536)或128k(131072)更为常用
3.2.2. 配置 hdfs-site.xml
Name
Value
含义
dfs.name.dir
逗号分隔的目录列表
NameNode上持久化存储元数据和事务日志的路径。指定多个目录的话,各个目录内容完全一致。
dfs.data.dir
逗号分隔的目录列表
DataNode上存储数据块的地方。如果指定多个目录,则数据库被随机的存放。
dfs.replication
整数
数据复制的份数
dfs.datanode.max.xcievers
4096
datanode同时打开的文件上限。默认256太小。
fs.checkpoint.dir
逗号分隔的目录列表
辅助NameNode检查点存储目录,分别存储到各个目录,支持冗余备份。
3.3. Map Reduce 配置
MapReduce的配置集中在mapred-size.xml。如果只用到了HDFS,这一部分的配置可以忽略。
Name
Value
说明
mapred.job.tracker
namenode:8021
Jobtracker的RPC服务器所在的主机名称和端口。
mapred.local.dir
逗号分隔的目录列表
存储作业中间数据的目录列表,作业结束后,数据被清楚
mapred.system.dir
HDFS上的目录
作业运行期间的存储共享目录的目录,必须是HDFS之上的目录
mapred.task.tracker.
map.tasks.maximum
整数
运行在tasktracker之上的最大map任务数
mapred.task.tracker.
reduce.tasks.maximum
整数
运行在tasktracker之上的最大reduce任务数
mapred.child.java.opts
Java虚拟机选项
JVM选项,默认 -Xmx200m
(责任编辑:IT)
3.1. 环境变量 hadoop-env.sh
3.2. HDFS配置3.2.1. 配置 core-site.xml
3.2.2. 配置 hdfs-site.xml
3.3. Map Reduce 配置MapReduce的配置集中在mapred-size.xml。如果只用到了HDFS,这一部分的配置可以忽略。
(责任编辑:IT) |