自学hadoop也有一段时间了。这里介绍一下hadoop实验环境的安装配置,给需要学习hadoop的朋友提供参考,也方便以后自己查阅。 这里只是梳理大概的步骤,细节的东西还需要自己多查资料。 1、准备工作 安装好VMware。并且在虚拟机上安装好一个linux系统。我的实验环境是用的Ubuntu。在linux上安装好jdk和ssh 2、下载hadoop http://hadoop.apache.org/#Download+Hadoop下载地址,可以选择自己需呀的版本下载,我安装的是2.5.1的版本。 3、配置hadoop 将下载好的hadoop上传到linux上。这里可以使用工具SshClient从window上上传到linux。用起来比较方便。将hadoop解压到/usr/local(这个目录可以随便定)目录。接下来的工作就是最关键的配置文件的修改了。 定位到目录/usr/local/hadoop-2.5.1/etc/hadoop开始修改下面的配置文件。 core-site.xml Source code <configuration> <property> <name>fs.defaultFS</name> <value>hdfs://namenode:9000</value> </property> <property> <name>io.file.buffer.size</name> <value>131072</value> </property> <property> <name>hadoop.tmp.dir</name> <value>file:/usr/local/hadoop-2.5.1/temp</value> <description>Abase for other temporary directories.</description> </property> <property> <name>hadoop.proxyuser.hadoop.hosts</name> <value>*</value> </property> <property> <name>hadoop.proxyuser.hadoop.groups</name> <value>*</value> </property> </configuration> 从配置中可以看出。需要在/usr/local/hadoop-2.5.1/目录下创建temp目录。 hdfs-site.xml Source code <configuration> <property> <name>dfs.namenode.secondary.http-address</name> <value>namenode:9001</value> </property> <property> <name>dfs.namenode.name.dir</name> <value>file:/usr/local/hadoop-2.5.1/dfs/name</value> </property> <property> <name>dfs.datanode.data.dir</name> <value>file:/usr/local/hadoop-2.5.1/dfs/data</value> </property> <property> <name>dfs.replication</name> <value>2</value> </property> <property> <name>dfs.webhdfs.enabled</name> <value>true</value> </property> </configuration> mapred-site.xml <configuration> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> <property> <name>mapreduce.jobhistory.address</name> <value>namenode:10020</value> </property> <property> <name>mapreduce.jobhistory.webapp.address</name> <value>namenode:19888</value> </property> </configuration> 从配置中可以看出,需要在/usr/local/hadoop-2.5.1/目录下创建dfs/data和dfs/name目录 mapred-site.xml(mapred-site.xml.template修改而来) Source code <configuration> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> <property> <name>mapreduce.jobhistory.address</name> <value>namenode:10020</value> </property> <property> <name>mapreduce.jobhistory.webapp.address</name> <value>namenode:19888</value> </property> </configuration> yarn-site.xml Source code <configuration> <!-- Site specific YARN configuration properties --> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> <property> <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name> <value>org.apache.hadoop.mapred.ShuffleHandler</value> </property> <property> <name>yarn.resourcemanager.address</name> <value>master:8032</value> </property> <property> <name>yarn.resourcemanager.scheduler.address</name> <value>namenode:8030</value> </property> <property> <name>yarn.resourcemanager.resource-tracker.address</name> <value>namenode:8031</value> </property> <property> <name>yarn.resourcemanager.admin.address</name> <value>namenode:8033</value> </property> <property> <name>yarn.resourcemanager.webapp.address</name> <value>namenode:8088</value> </property> </configuration> 4、克隆node节点,配置ssh免密码登录等 配置好后将linux系统克隆一份,命名为node1。修改两台linux的hosts文件如下 Source code blackcat@namenode:/etc$ cat hosts 127.0.0.1 localhost 192.168.1.106 node1 192.168.1.105 namenode 配置好ssh免密码登录。 格式化namenode: bin/hadoop namenode -format 启动hadoop: sbin/start-dfs.sh sbin/start-yarn.sh 到此一个单节点的分布式hadoop系统基本就装完了。步骤中很多地方都是一句话带过,其实在安装的过程中还是会碰到很多问题的。需要督查资料,在查资料的过程中也可以加深理解。 用hadoop自带的wordcount的例子测试是否安装成功 Source code blackcat@namenode:/usr/local/hadoop-2.5.1$ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.5.1.jar wordcount in out wordcount这个例子如果能执行说明hadoop安装成功了。 (责任编辑:IT) |