hadoop2.5.1环境安装配置

时间:2015-04-22 19:31 来源:linux.it.net.cn 作者:IT

自学hadoop也有一段时间了。这里介绍一下hadoop实验环境的安装配置，给需要学习hadoop的朋友提供参考，也方便以后自己查阅。这里只是梳理大概的步骤，细节的东西还需要自己多查资料。

1、准备工作
安装好VMware。并且在虚拟机上安装好一个linux系统。我的实验环境是用的Ubuntu。在linux上安装好jdk和ssh

2、下载hadoop
http://hadoop.apache.org/#Download+Hadoop下载地址，可以选择自己需呀的版本下载，我安装的是2.5.1的版本。

3、配置hadoop
将下载好的hadoop上传到linux上。这里可以使用工具SshClient从window上上传到linux。用起来比较方便。将hadoop解压到/usr/local（这个目录可以随便定）目录。接下来的工作就是最关键的配置文件的修改了。定位到目录/usr/local/hadoop-2.5.1/etc/hadoop开始修改下面的配置文件。
core-site.xml
Source code

<configuration>
     <property>
         <name>fs.defaultFS</name>
                <value>hdfs://namenode:9000</value>
    </property>

    <property>
         <name>io.file.buffer.size</name>
         <value>131072</value>
    </property>

    <property>
         <name>hadoop.tmp.dir</name>
         <value>file:/usr/local/hadoop-2.5.1/temp</value>
         <description>Abase for other temporary directories.</description>
    </property>

    <property>
         <name>hadoop.proxyuser.hadoop.hosts</name>
         <value>*</value>
    </property>

    <property>
         <name>hadoop.proxyuser.hadoop.groups</name>
         <value>*</value>
    </property>

</configuration>
从配置中可以看出。需要在/usr/local/hadoop-2.5.1/目录下创建temp目录。
hdfs-site.xml
Source code

<configuration>
     <property>
     <name>dfs.namenode.secondary.http-address</name>
         <value>namenode:9001</value>
     </property>

     <property>
     <name>dfs.namenode.name.dir</name>
     <value>file:/usr/local/hadoop-2.5.1/dfs/name</value>
    </property>

     <property>
         <name>dfs.datanode.data.dir</name>
         <value>file:/usr/local/hadoop-2.5.1/dfs/data</value>
    </property>

    <property>
         <name>dfs.replication</name>
         <value>2</value>
    </property>

     <property>
         <name>dfs.webhdfs.enabled</name>
         <value>true</value>
     </property>
</configuration>

mapred-site.xml

<configuration>
     <property>
          <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>

    <property>
        <name>mapreduce.jobhistory.address</name>
        <value>namenode:10020</value>
    </property>

    <property>
        <name>mapreduce.jobhistory.webapp.address</name>
        <value>namenode:19888</value>
    </property>
</configuration>
从配置中可以看出，需要在/usr/local/hadoop-2.5.1/目录下创建dfs/data和dfs/name目录
mapred-site.xml（mapred-site.xml.template修改而来）
Source code

<configuration>
     <property>
          <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>

    <property>
        <name>mapreduce.jobhistory.address</name>
        <value>namenode:10020</value>
    </property>

    <property>
        <name>mapreduce.jobhistory.webapp.address</name>
        <value>namenode:19888</value>
    </property>
</configuration>
yarn-site.xml
Source code

<configuration>


     <property>
          <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>

    <property>
        <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
        <value>org.apache.hadoop.mapred.ShuffleHandler</value>
    </property>

    <property>
        <name>yarn.resourcemanager.address</name>
        <value>master:8032</value>
    </property>

    <property>
        <name>yarn.resourcemanager.scheduler.address</name>
        <value>namenode:8030</value>
    </property>

    <property>
        <name>yarn.resourcemanager.resource-tracker.address</name>
        <value>namenode:8031</value>
    </property>

    <property>
        <name>yarn.resourcemanager.admin.address</name>
        <value>namenode:8033</value>
    </property>

    <property>
        <name>yarn.resourcemanager.webapp.address</name>
        <value>namenode:8088</value>
    </property>

</configuration>

4、克隆node节点，配置ssh免密码登录等
配置好后将linux系统克隆一份，命名为node1。修改两台linux的hosts文件如下
Source code

blackcat@namenode:/etc$ cat hosts
127.0.0.1       localhost
192.168.1.106   node1
192.168.1.105 namenode

配置好ssh免密码登录。
格式化namenode:    bin/hadoop namenode -format
启动hadoop:    sbin/start-dfs.sh    sbin/start-yarn.sh
到此一个单节点的分布式hadoop系统基本就装完了。步骤中很多地方都是一句话带过，其实在安装的过程中还是会碰到很多问题的。需要督查资料，在查资料的过程中也可以加深理解。
用hadoop自带的wordcount的例子测试是否安装成功
Source code

blackcat@namenode:/usr/local/hadoop-2.5.1$ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.5.1.jar wordcount in out
wordcount这个例子如果能执行说明hadoop安装成功了。
(责任编辑：IT)