操作系统:CentOS 5.5
		Hadoop:hadoop-0.20.203.0
		jdk1.7.0_01
		namenode主机名:master,namenode的IP:10.10.102.15
		datanode主机名:slave1,datanode的IP:10.10.106.8
		datanode主机名:slave2,datanode的IP:10.10.106.9
		一、hadoop 安装
		1、建立用户
		useradd hadoop
		passwd hadoop
		2. 安装 JDK * 
		先查看是否安装了java,并确定其版本,如果没有安装
		rpm -i jdk-7u1-linux-x64.rpm
		默认安装在/usr/java/下
		3.设置环境变量 * 
		编辑 /etc/profile 文件,设置 JAVA_HOME 环境变量以及类路径: 
		export JAVA_HOME=/usr/java/jdk1.7.0_01(在8中用的是jdk1.6.0_25)
		export JRE_HOME=/usr/java/jdk1.7.0_01/jre
		export CLASSPASH=.:$JAVA_HOME/lib:$JAVA_HOME/jre/lib
		export PATH=$JAVA_HOME/bin:$JAVA_HOME/jre/bin:$PATH
		4. 添加 hosts 的映射 * 
		编辑 /etc/hosts 文件:
		10.10.102.15 master 
		10.10.106.8 slave1 
		10.10.106.8 slave2
		5、配置SSH
		这里暂时只是设置了master连接slave不需密码。slave连接master没设置。
		[hadoop@master:~]$ssh-keygen  -t  rsa #在hadoop的根目录下,创建密钥对,放在.ssh文件夹中
		[hadoop@master:.ssh]$cp id_rsa.pub authorized_keys  #进入.ssh,将公钥加入到authorized_keys
		[hadoop@slave1:~]$mkdir .ssh #在slave1、slave2中建立目录
		[hadoop@slave2:~]$mkdir .ssh
		[hadoop@master:.ssh]$scp authorized_keys slave1:/home/hadoop/.ssh/ #将master的公钥给另外两者
		[hadoop@master:.ssh]$scp authorized_keys slave2:/home/hadoop/.ssh/
		Ssh 权限配置问题:(任何一点权限的配置错误有血的教训~~)
		用户目录权限为 755 或者 700就是不能是77x
		.ssh目录权限必须为755
		rsa_id.pub 及authorized_keys权限必须为644
		rsa_id权限必须为600
		最后,在master中测试:ssh localhost date、ssh slave1 date、ssh slave2 date。不需要密码,则成功。
		6、安装hadoop。
		以master为例,slave完全相同
		(1)[hadoop@master:~]$tar xzvf hadoop-0.20.203.0rc1.tar.gz  #解压
		(2)添加环境变量
		export HADOOP_HOME=/home/hadoop/hadoop-0.20.203.0
		export PATH=$PATH:$HADOOP_HOME/bin
		(3)创建hadoop本地临时文件夹
		(如果设置临时文件夹,而是用默认/tmp/下,那因为其空间小,hdfs放几个大文件就报错)
		[hadoop@master:~]mkdir tmp  
		注意:tmp一定要有hadoop的读写权限,否则datanode 会 format失败。依然是血的教训啊~
		(4)
		修改masters: 
		master 
		修改slaves: 
		slave1 
		slave2 
	
		(5)配置hadoop
		hadoop/conf/core-site.xml
		<configuration>
		     <property> 
		            <name>hadoop.tmp.dir</name> 
		            <value>/home/hadoop/tmp/</value> 
		     </property>
	
		<!-- file system properties -->
		      <property>
		            <name>fs.default.name</name>
		            <value>hdfs://master:54310</value>
		      </property>
		      <property> 
		            <name>io.sort.mb</name>  #指定了排序使用的内存,大的内存可以加快 job 的处理速度。
		            <value>1024</value>  
		      </property> 
	
		</configuration>
		hadoop/conf/mapred-site.xml
		<configuration>
		      <property>
		            <name>mapred.job.tracker</name>
		            <value>master:54311</value>
		      </property>
		      <property> 
		            <name>mapred.map.child.java.opts</name>  #指定 map/reduce 任务使用的最大堆内存。较小的内存可能导致程序抛出
	
		OutOfMemoryException 。
		            <value>-Xmx4096m</value> 
		      </property> 
		      <property> 
		            <name>mapred.reduce.child.java.opts</name> 
		            <value>-Xmx4096m</value> 
		      </property> 
		</configuration>
		hadoop/conf/hdfs-site.xml
		<configuration>
		      <property>
		            <name>dfs.replication</name>
		            <value>3</value>
		      </property>
		</configuration>
	
		(6)将master配置好的hadoop直接复制到slave1、slave2中即可。
		7、启动hadoop
		[hadoop@master:hadoop-0.20.203.0]$cd bin
		[hadoop@master:bin]$hadoop namenode format  #格式化namenode的时候最好将节点的tmp目录清空、删除logs目录中的文件。尤其是tmp一定要情况。
	
		否侧上传的错误会导致这次的datanode启动失败。详见错误目录:
		[hadoop@master:bin]$start-all.sh
		[hadoop@master:bin]$jps
		浏览器中输入http://master:54310 查看
		http://master:50070 --web UI for HDFS name node(s)
		http://master:50030 --web UI for MapReduce job tracker(s)
		http://slave1:50060   --web UI for task tracker(s)
	
		
		错误目录:
		1、could only be replicated to 0 nodes, instead of 1 
		format之后之前的datanode会有一个ID,这个ID没有删除,所以会拒绝当前Namenode链接和分配。所以需要删除 原来的datanode中的hdfs目录。
	
		二、hive安装 ,并使用mysql数据库为元数据库
		使用hive-0.8.0
		安装hive前,事先安装mysql用于保存元数据,安装ant用于启用HWI
		1、在namenode安装hive。下载并解压hive文件后,进入hive/bin/下,配置hive-config.sh文件:
		export HADOOP_HOME=/home/hadoop/hadoop-0.20.203.0
		export PATH=.:$HADOOP_HOME/bin:$PATH
		export HIVE_HOME=/home/hadoop/hive-0.8.0
		export PATH=$HIVE_HOME/bin:$PATH
		export JAVA_HOME=/usr/java/jdk1.7.0_01
		export JRE_HOME=/usr/java/jdk1.7.0_01/jre
		export CLASSPATH=.:$JAVA_HOME/lib:$JRE_HOME/lib:$CLASSPATH  
		export PATH=.:$JAVA_HOME/bin:$JRE_HOME/bin:$PATH 
		2、将hive加入到环境变量中:
		export HIVE_HOME=/home/hadoop/hive-0.8.0
		3、在mysql中创建hadoop的用户,密码也为hadoop,并创建元数据库:
		mysql  
		mysql> CREATE USER 'hadoop'@'master' IDENTIFIED BY 'hadoop'; 
		mysql> GRANT ALL PRIVILEGES ON *.* TO 'hadoop'@'master' WITH GRANT OPTION; 
		mysql> exit 
	
		4、下载文件mysql-connector-java-5.1.15-bin.jar,保存到bin文件目录下。
		否则出现错误:
		hive> show tables;
		FAILED: Error in metadata: javax.jdo.JDOFatalInternalException: Error creating transactional connection factory
		NestedThrowables:
		java.lang.reflect.InvocationTargetException
		FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask
		5、在hive/conf/文件夹中,新建hive-site.xml文件,并复制进hive-default.xml.template的全部内容,作以下修改:
		(使用mysql为元数据库)
		<property>  
		  <name>hive.metastore.local</name>  
		  <value>true</value>  
		</property>
		<property>
		  <name>javax.jdo.option.ConnectionURL</name>
		  <!--<value>jdbc:derby:;databaseName=metastore_db;create=true</value>-->
		  <value>jdbc:mysql://master:3306/metastore</value>
		  <description>JDBC connect string for a JDBC metastore</description>
		</property>
	
		<property>
		  <name>javax.jdo.option.ConnectionDriverName</name>
		  <value>com.mysql.jdbc.Driver</value>
		  <description>Driver class name for a JDBC metastore</description>
		</property>
		<property>
		  <name>javax.jdo.option.ConnectionUserName</name>
		  <value>hadoop</value>
		  <description>username to use against metastore database</description>
		</property>
	
		<property>
		  <name>javax.jdo.option.ConnectionPassword</name>
		  <value>hadoop</value>
		  <description>password to use against metastore database</description>
		</property>
		6、在hdfs中创建几个目录
		$HADOOP_HOME/bin/hadoop fs -mkdir /tmp
		$HADOOP_HOME/bin/hadoop fs -mkdir /user/hive/warehouse
		$HADOOP_HOME/bin/hadoop fs -chmod g+w /tmp
		$HADOOP_HOME/bin/hadoop fs -chmod g+w /user/hive/warehouse
		7、启动hive
		启动hive:$HIVE_HOME/bin/hive
		8、启动hwi界面:
		export ANT_LIB=/opt/ant/lib
		bin/hive --service hwi
		bin/hive --service hwi --help
		9、在hive命令行模式下,使用show tables;测试mysql连接是否正确。
		三、hbase安装
		使用hbase-0.90.5
		1、在现在master中安装hbase。
	
		下载并解压hbase文件后,进入hbase/conf下,配置hbse-env.sh文件:
		export JAVA_HOME=/usr/java/jdk1.7.0_01
		export HBASE_MANAGES_ZK=true $使用hbase自带的zookeeper
		2、在regionservers中加入region名称:
		slave1
		slave2
		3、修改hbase-site.xml文件:
		<configuration>
		<property>
		  <name>hbase.rootdir</name>
		  <value>hdfs://master:54310/hbase</value>  #注意主机名和端口号要与hadoop的dfs name的对应
		</property>
		<property>
		  <name>hbase.cluster.distributed</name>
		  <value>true</value>
		</property>
		<property>
		       <name>zookeeper.session.timeout</name>
		       <value>60000</value>
		  </property>
		<property>
		  <name>hbase.zookeeper.quorum</name>
		  <value>master,slave1,slave2</value>
		</property>
		</configuration>
	
		4、将hbase文件夹完全复制到slave1和slave2相同目录下。
		5、启动hbase:
		#start-hbase.sh
		#jps 
		后出现两项:Hmaster和HQuorumPeer 表明成功
		#./hbase shell 进入shell
		http://master:60010进入页面
	
		错误目录:
		1、zookeeper问题:
		ZooKeeper Client Connection Errors
	
		11/07/05 11:26:41 WARN zookeeper.ClientCnxn: Session 0x0 for server null,
		unexpected error, closing socket connection and attempting reconnect
		java.net.ConnectException: Connection refused: no further information
		        at sun.nio.ch.SocketChannelImpl.checkConnect(Native Method)
		        at sun.nio.ch.SocketChannelImpl.finishConnect(Unknown Source)
		        at org.apache.zookeeper.ClientCnxn$SendThread.run(ClientCnxn.java:1078)
		11/07/05 11:26:43 INFO zookeeper.ClientCnxn: Opening socket connection to
		server localhost/127.0.0.1:2181
		11/07/05 11:26:44 WARN zookeeper.ClientCnxn: Session 0x0 for server null,
		unexpected error, closing socket connection and attempting reconnect
		java.net.ConnectException: Connection refused: no further information
		        at sun.nio.ch.SocketChannelImpl.checkConnect(Native Method)
		        at sun.nio.ch.SocketChannelImpl.finishConnect(Unknown Source)
		        at org.apache.zookeeper.ClientCnxn$SendThread.run(ClientCnxn.java:1078)
		11/07/05 11:26:45 INFO zookeeper.ClientCnxn: Opening socket connection to
		server localhost/127.0.0.1:2181
		原因:zppkeeper未启动,或无法连接,从查看各节点zookeeper启动状态、端口占用、防火墙等方面查看原因。
		2、hmaster无法启动问题:
		原因:java.io.IOException: Call to <host:port> failed on local exception
		网上大部分说事使用hadoop 的21版本问题,但我用的是20的。
		后来把hbase_home/lib(启动的时候会加载里面所有jar) 下的hadoop-core-0.20-append-r1056497.jar rm 掉,再cp hadoop_home下的hadoop-core-
	
		0.20.203.0.jar到lib中,
		还出现:
		FATAL org.apache.hadoop.hbase.master.HMaster: Unhandled exception. Starting shutdown.
		java.lang.NoClassDefFoundError: org/apache/commons/configuration/Configuration
		现在NoClassDefFoundError,缺少 org/apache/commons/configuration/Configuration 果断给他加一个commons-configuration包试试,从
	
		hadoop_home/lib下面cp一个commons-configuration-1.6.jar到hbase_home/lib下,
		成功,但界面上出现不支持append的提示(因为用hadoop-core-0.20.203.0.jar替换了hadoop-core-0.20-append-r1056497.jar)。不知道以后有没有什么影响。
	
		四、使用hive访问hbase中数据
		1、解决版本问题
	
		先将hbase中的hbase-0.90.5.jar文件替换掉hive-0.8.0/bin/文件目录下的rhbase-0.89.0-SNAPSHOT.jar,把hbase-0.90.5/conf/hbase-site.xml复
	
		制到hive-0.8.0/conf/文件目录下。同时注意hive/bin目录下的zookeeper.jar与hbase/bin中的zookeeper.jar版本是否一致,如果不一致,要使用hbase/bin中的zookeeper.jar替换掉hive/bin目录下的zookeeper.jar
		否则出现错误:
		FAILED: Error in metadata: MetaException(message:org.apache.hadoop.hbase.MasterNotRunningException: master:60000
		2、在hive-site中添加内容:
		<property>
		   <name>hbase.zookeeper.quorum</name>
		   <value>master,slave1,slave2</value>         #2个datanode ,使用HBASE自己维护的ZOOKEEPER
		</property>
		<property>
		  <name>hive.aux.jars.path</name>
		  <value>file:///home/hadoop/hive-0.8.0/lib/hive-hbase-handler-0.8.0.jar,file:///home/hadoop/hive-0.8.0/lib/zookeeper-
	
		3.3.1.jar,file:///home/hadoop/hive-0.8.0/lib/hbase-0.90.5.jar </value>      
		</property>