一、HDFS的基本概念 1.1、数据块(block) HDFS(Hadoop Distributed File System)默认的最基本的存储单位是64M的数据块。 和普通文件系统相同的是,HDFS中的文件是被分成64M一块的数据块存储的。 不同于普通文件系统的是,HDFS中,如果一个文件小于一个数据块...
1、Map-Reduce的逻辑过程 假设我们需要处理一批有关天气的数据,其格式如下: 按照ASCII码存储,每行一条记录 每一行字符从0开始计数,第15个到第18个字符为年 第25个到第29个字符为温度,其中第25位是符号+/- 0067011990999991950051507+0000+ 004301199099...
----------------------------------------------------------- hadoop集群规划 IP地址 hostname ------------ -------- 10.10.10.100master(namenode,secondary namenode,job tracker) 10.10.10.101slave1(datanode,tasktracker) 10.10.10.102slave2(datano...
虚拟机软件VMWare Server2.0 操作系统:RedHat Enterprise Linux Server 5.3(32bit) hadoop版本:0.20.2 jdk版本:1.7 注意:各操作用户请注意查看命令行的提示符 1、首先查看下该虚拟机系统的网络配置 [root@hadoop ~]# cat /etc/hosts # Do not remove the...
1. 配置文件列表如下: [tianyc@Route conf]$ pwd /home/tianyc/hadoop-1.0.4/conf [tianyc@Route conf]$ ll 总用量 76 -rw-rw-r--. 1 tianyc NEU 7457 3月 6 10:38 capacity-scheduler.xml -rw-rw-r--. 1 tianyc NEU 535 3月 6 10:38 configuration.xsl -rw...
1. 内存 hadoop为各个守护进程(namenode,secondarynamenode,jobtracker,datanode,tasktracker)统一分配的内存在hadoop-env.sh中设置,参数为HADOOP_HEAPSIZE,默认为1000M。 大部分情况下,这个统一设置的值可能并不适合。例如对于namenode节点,1000M的内...
1. hadoop日志目录 默认存放在hadoop安装目录下的logs文件夹中,也可以通过hadoop-env.sh中的HADOOP_LOG_DIR变量来修改。一般建议修改默认值,使之独立于hadoop安装目录,这样便于以后的升级。 hadoop日志文件的名称格式为hadoop-用户名-守护进程名-本地主机...
hadoop中的配置属性非常多,这里只讨论关键属性,它们分散在3个文件中:core-site.xml、hdfs-site.xml、mapred-site.xml。 1. core-site.xml configuration property namefs.default.name/name valuehdfs://Route:9000/value finaltrue/final /property /con...
首先下载对应linux的rsync软件:http://rsync.samba.org/download.html 本例中,下载rsync-3.1.1-1.el5.rfx.i386.rpm 22-Jun-2014 21:58 420K RHEL5 and CentOS-5 x86 32bit 服务端配置 [root@master software]#pwd /root/software [root@master software]#ll...
一、用户命令 1、archive命令 (1).什么是Hadoop archives? Hadoop archives是特殊的档案格式。一个Hadoop archive对应一个文件系统目录。 Hadoop archive的扩展名是*.har。Hadoop archive包含元数据(形式是_index和_masterindx)和数据文件(part-*)。_index文...