Linux集群 / Hadoop

Hadoop管理员的十个最佳实践

日期：

前言接触Hadoop有两年的时间了，期间遇到很多的问题，既有经典的NameNode和JobTracker内存溢出故障，也有HDFS存储小文件问题，既有任务调度问题，也有MapReduce性能问题.遇到的这些问题有些是Hadoop自身的缺陷（短板），有些则是使用的不当。在解决问题的...

Hadoop FS Shell命令大全

日期：

调用文件系统(FS)Shell命令应使用 bin/hadoop fs args 的形式。所有的的FS shell命令使用URI路径作为参数。URI格式是 scheme://authority/path 。对HDFS文件系统，scheme是 hdfs ，对本地文件系统，scheme是 file 。其中scheme和authority参数都是可选的，...

运行wordcount时显示Could not obtain block

日期：

该文章接上面hadoop运行wordcount时卡住不动，接着下面 hadoop@ubuntu118:~/hadoop-1.0.2$ bin/hadoop dfsadmin -safemode leave Warning: $HADOOP_HOME is deprecated. Safe mode is OFF hadoop@ubuntu118:~/hadoop-1.0.2$ bin/hadoop jar hadoop-examples-...

hadoop各配置文件中各配置项详细说明

日期：

3.1. 环境变量 hadoop-env.sh name value 含义 JAVA_HOME /usr/java/jdk1.6.0_30 JDK 所在路径 3.2. HDFS 配置 3.2.1. 配置 core-site.xml Name value 含义 fs.default.name hdfs://namenode 指定默认的文件系统，默认端口 8020 。 io.file.buffer.size 6553...

hadoop 性能调优

日期：

http://wenku.baidu.com/view/3a86c118964bcf84b9d57bce.html （不错的一个调优资料）...

hadoop负载均衡与垃圾回收

日期：

负载均衡负载的均衡，是分布式系统中一个永恒的话题，要让大家各尽其力齐心干活，发挥各自独特的优势，不能忙得忙死闲得闲死，影响战斗力。而且，负载均衡也是一个复杂的问题，什么是均衡，是一个很模糊的概念。比如，在分布式文件系统中，总共三百个数据块...

hadoop安全机制

日期：

1．背景 1.1 共享Hadoop集群当前大一点的公司都采用了共享Hadoop集群的模式，这种模式可以减小维护成本，且避免数据过度冗余，增加硬件成本。共享Hadoop是指：（1）管理员把研发人员分成若干个队列，每个队列分配一定量的资源，每个用户或者用户组只能使...

hadoop集群调优分两个方面,map和reduce

日期：

hadoop集群调优分两个方面,map和reduce map调优： map 任务执行会产生中间数据,但这些中间结果并没有直接IO到磁盘上,而是先存储在缓存(buffer)中,并在缓存中进行一些预排序来优化整个map的性能,该存储map中间数据的缓存默认大小为100M，由io.sort.mb 参数指...

hadoop性能调优

日期：

从三个方面着手优化 : 1. hadoop配置 2. 设计mapred/job 3. 代码级别. 4. 改造hadoop 一. conf/hadoop-site.xml配置. 经验要求高, 特别需要结合实际情况. 典型参数如复制因子, mapred.child.java.opts, mapred.tasktracker.map.tasks.maximum, mapred.taskt...

hadoop安装配置过程总结

日期：

一、Jdk安装系统已经默认有安装，但不完全，所以需要自己安装配置环境变量：在usr下新建java文件夹，将Java7压缩文件解压在该文件夹中，并配置系统文件： nano /etc/profile #export PATH USER LOGNAME MAIL HOSTNAME HISTSIZE HISTCONTROL export JAVA_H...