hadoop 2.5 伪分布安装，hadoop2.5分布安装

时间:2014-11-02 10:53 来源:linux.it.net.cn 作者:it

hadoop 2.5 伪分布安装，hadoop2.5分布安装

最新的hadoop2.5 安装目录做了一定修改，安装变得稍微简单一点

首先安装准备工具

 $ sudo apt-get install ssh
  $ sudo apt-get install rsync

配置ssh

  $ ssh localhost

If you cannot ssh to localhost without a passphrase, execute the following commands:

  $ ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa
  $ cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys

进入etc/hadoop/hadoop-env.sh 配置运行环境

  # set to the root of your Java installation
  export JAVA_HOME=/usr/java/latest

  # Assuming your installation directory is /usr/local/hadoop
  export HADOOP_PREFIX=/usr/local/hadoop

配置hdfs端口和备份数

etc/hadoop/core-site.xml:

<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://localhost:9000</value>
    </property>

<property>#ClientDatanodeProtocol 调用getBlockLocalPathInfo的时候
          <name>dfs.block.local-path-access.user</name>
          <value>infomorrow</value>
     </property>
     <property> 
         <name>dfs.replication</name> 
         <value>1</value> 
     </property> 
     <property> 
         <name>hadoop.tmp.dir</name> 
         <value>/home/infomorrow/hadoop-tmp</value>    
     </property>

</configuration>

etc/hadoop/hdfs-site.xml:

<configuration>
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
</configuration>

配置使用yarn

etc/hadoop/mapred-site.xml:

<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
</configuration>

etc/hadoop/yarn-site.xml:

NodeManager 在启动时加载shuffle server,shuffle server 实际上是 Jetty/Netty Server,Reduce Task 通过该 server 从各个NodeManager 上远程复制 Map Task 产生的中间结果

<configuration>
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
</configuration>

启动过程：

hdfs

  $ bin/hdfs namenode -format （初次使用时）

```
  $ sbin/start-dfs.sh
```

进入监控页查看 - http://localhost:50070/

在hdfs上创建文件夹

  $ bin/hdfs dfs -mkdir /user
  $ bin/hdfs dfs -mkdir /user/<username>

查看hdfs上创建的文件夹 bin/hadoop fs -ls /

yarn

```
$ sbin/start-yarn.sh
```

进入监控页查看 - http://localhost:8088/

关闭：

 $ sbin/stop-dfs.sh

$ sbin/stop-yarn.sh

hadoop伪分布可以安装chukwa

用chukwa的人很少去hadoop论坛问问吧
目测能。。

什叫hadoop伪分布，是一台主机里有虚拟机这样

伪分布模式也是在一台单机上运行，但用不同的 Java 进程模仿分布式运行中的各类结点 ( NameNode, DataNode, JobTracker, TaskTracker, Secondary NameNode )，分布式运行中的这几个结点的区别：
从分布式存储的角度来说，集群中的结点由一个 NameNode 和若干个 DataNode 组成, 另有一个 Secondary NameNode 作为 NameNode 的备份。
从分布式应用的角度来说，集群中的结点由一个 JobTracker 和若干个 TaskTracker 组成，JobTracker 负责任务的调度，TaskTracker 负责并行执行任务。
TaskTracker 必须运行在 DataNode 上，这样便于数据的本地计算。JobTracker 和 NameNode 则无须在同一台机器上。
伪分布模式安装步骤：
1.解压到某目录下并设置JAVA_HOME。
2.修改配置文件：
a)修改conf/core-site.xml：
<configuration>
<property>
<name>fs.default.name</name>
<value>hdfs://localhost:9000</value>
</property>
</configuration>
b)修改conf/mapred-site.xml:
<configuration>
<property>
<name>mapred.job.tracker</name>
<value>localhost:9001</value>
</property>
</configuration>
c)修改conf/hdfs-site.xml:
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>
＃参数 fs.default.name 指定 NameNode 的 IP 地址和端口号。缺省值是 file:///, 表示使用本地文件系统, 用于单机非分布式模式。此处我们指定使用运行于本机 localhost 上的 NameNode。
＃参数 mapred.job.tracker 指定 JobTracker 的 IP 地址和端口号。缺省值是 local, 表示在本地同一 Java 进程内执行 JobTracker 和 TaskTracker, 用于单机非分布式模式。此处我们指定使用运行于本机 localhost 上的 JobTracker ( 用一个单独的 Java 进程做 JobTracker )。
＃参数 dfs.replication 指定 HDFS 中每个 Block 被复制的次数，起数据冗余备份的作用。在典型的生产系统中，这个数常......余下全文>>

(责任编辑：IT)

hadoop 2.5 伪分布安装，hadoop2.5分布安装

时间:2014-11-02 10:53 来源:linux.it.net.cn 作者:it