欢迎光临IT网Linux学习频道

当前位置: > Linux集群 > Hadoop >
  • [Hadoop] Hadoop中HDFS写入文件的原理剖析 日期:2015-02-23 23:23:20 点击:209 好评:0

    要为即将到来的大数据时代最准备不是,下面的大白话简单记录了Hadoop中HDFS在存储文件时都做了哪些个事情,位将来集群问题的排查提供一些参考依据。 步入正题 创建一个新文件的过程: 第一步:客户端通过DistributedFilesystem 对象中的creat()方法来创建...

  • [Hadoop] Hadoop-HDFS源码学习草记 日期:2015-02-23 01:23:42 点击:87 好评:0

    HDFS protocol: Block 块定义,组成(blockId,numBytes,generationStamp),定义问块文件的文件命名为blk_{blockId},存储的最小单位。 BlockListAsLongs:每个Block块可以由3个long的数字表达,使用long[]存储Block[],主要用于datanode高效的上报给namenode...

  • [Hadoop] Hadoop初探之MapReduce+HBase实例 日期:2015-02-08 00:22:49 点击:143 好评:0

    一、环境配置 这里选择的环境是hadoop-0.20.2和hbase-0.90.4,Hadoop环境配置参看这里,HBase环境配置请看这里。 需要注意的是,本文的需求是在Hadoop上跑MapReduce job来分析日志并将结果持久化到HBase,所以,在编译程序时,Hadoop需要用到HBase和Zookeeper...

  • [Hadoop] Hadoop集群搭建 日期:2015-02-01 18:51:53 点击:55 好评:0

    本文主要向大家介绍有关Hadoop集群搭建,从配置环境到简单的命令启动一一进行了讲解。希望对于想接触hadoop的你有所帮助。 首先说一下配置环境:三台电脑 192.168.30.149hadoop149namenode和jobtracker###因为149机器稍微好一点 192.168.30.150hadoop150data...

  • [Hadoop] Hadoop安装部署 日期:2015-01-20 00:17:32 点击:139 好评:0

    花了两天时间把Hadoop 0.18.3部署到了RedHat 9上。总结一下思路。 环境:RedHat 9 + Hadoop 0.18.3 + JDK 1.6u14 新建一个用户: howard 首先,从SUN上下载了JDK 1.6u14(使用Hadoop必须保证JDK在1.5以上的版本)用root身份登录,使用vi /etc/profile命令,在...

  • [Hadoop] 谈Hadoop的C++扩展 日期:2015-01-20 00:17:06 点击:74 好评:0

    原文在http://blog.sina.com.cn/s/blog_6e273ebb0100pid0.html 长期一来,Hadoop因为其Java实现带来的性能问题而饱受争议,同时也涌现了很多方案来缓解这一问题。 Jeff Hammerbacher(Cloudera首席科学家)曾在Quora上写过这样一段: ----------------------...

  • [Hadoop] Hadoop C++ Pipes中context常见成员函数的作用 日期:2015-01-20 00:16:23 点击:101 好评:0

    getJobConf Get the JobConf for the current task getInputKey Get the current key getInputValue Get the current value In the reducer, context.getInputValue is not available till context.nextValue is called ! progress This method simply phone...

  • [Hadoop] 面向MapReduce 的数据处理流程开发方法 ------------重点内容摘要 日期:2015-01-20 00:15:40 点击:59 好评:0

    摘 要:数据处理流程在信息爆炸的今天被广泛应用并呈现出海量和并行的特点, MapReduce 编程模型的简单性和高性价比使得其适用于海量数据的并行处理, 但是 MapReduce 不支持多数据源的数据处理, 不能直接应用于具有多个处理操作、多个数据流分支的数据处理流...

  • [Hadoop] 在Redhat AS6上搭建Hadoop集群总结 日期:2015-01-20 00:15:14 点击:131 好评:0

    本周末在家里的两台电脑上用Vmware+Redhat As6 + hadoop-0.21.0上搭建了一个3节点的Hadoop集群,虽说是原来已经搭建过类似的集群了,也跑过JavaAPI来操作HDFS与Map/reduce,但是这一次依然是受到挑战了,好些小细节,稍有遗漏就会有如坐过山车一般大起大落。...

  • [Hadoop] Map-Reduce简介 日期:2015-01-20 00:14:25 点击:51 好评:0

    MapReduce是一种编程模型,始于:Dean, Jeffrey Ghemawat, Sanjay (2004). MapReduce: Simplified Data Processing on Large Clusters。主要应用于大规模数据集的并行运算。其将并行计算简化为Map和reduce过程,极大地方便了编程人员在不会分布式并行编程的...

  • [Hadoop] Hadoop MapReduce 日期:2015-01-20 00:14:15 点击:159 好评:0

    mapreducehadoop分布式计算任务分布式存储程序开发 Hadoop MapReduce是一个用于处理海量数据的分布式计算框架。这个框架解决了诸如数据分布式存储、作业调度、容错、机器间通信等复杂问题,可以使没有并行处理或者分布式计算经验的工程师,也能很轻松地写出...

  • [Hadoop] Hadoop Streaming 日期:2015-01-20 00:13:12 点击:139 好评:0

    Hadoop MapReduce和HDFS采用Java实现,默认提供Java编程接口,另外提供了C++编程接口和Streaming框架。Streaming框架允许 任何程序语言 实现的程序在Hadoop MapReduce中使用,方便已有程序向Hadoop平台移植。 Streaming的原理 是用Java实现一个包装用户程序...

  • [Hadoop] Hadoop客户端环境配置 日期:2015-01-20 00:12:51 点击:199 好评:0

    1. 安装客户端(通过端用户可以方便的和集群交互) 2. 修改客户端~/.bashrc alias hadoop=/home/work/hadoop/client/hadoop-client/hadoop/bin/hadoop #hadoop 可执行文件位置 alias hls=hadoop fs -ls alias hlsr=hadoop fs -lsr alias hcp=hadoop fs -cp a...

  • [Hadoop] Hadoop Streaming 实战: grep 日期:2015-01-20 00:12:28 点击:69 好评:-2

    streaming支持shell 命令的使用。但是,需要注意的是,对于多个命令,不能使用形如cat; grep 之类的多命令,而需要使用脚本,后面将具体介绍。 下面示例用grep检索巨量数据: 1. 待检索的数据放入hdfs $ hadoop fs -put localfile /user/hadoop/hadoopfile...

  • [Hadoop] Hadoop Streaming 实战: bash脚本 日期:2015-01-20 00:12:00 点击:62 好评:0

    streaming支持使用脚本作为map、reduce程序。以下介绍一个实现分布式的计算所有文件的总行数的程序 1. 待检索的数据放入hdfs $ hadoop fs -put localfile /user/hadoop/hadoopfile 2. 编写map、reduce脚本,记得给脚本加可执行权限。 mapper.sh view plain #!...

  • [Hadoop] Hadoop Streaming 实战: 文件分发与打包 日期:2015-01-20 00:11:28 点击:103 好评:0

    如果程序运行所需要的可执行文件、脚本或者配置文件在Hadoop集群的 计算节点 上不存在,则首先需要将这些文件分发到集群上才能成功进行计算。 Hadoop提供了自动分发文件和压缩包的机制,只需要在启动Streaming作业时配置相应的参数。 1. file 将本地文件分发...

  • [Hadoop] 使用hadoop存储图片服务器 使用hadoop存储图片服务器 日期:2015-01-20 00:10:16 点击:196 好评:0

    公司的一个服务需要存储大量的图片服务器,考虑使用hadoop的hdfs来存放图片文件.以下是整个架构思路: 使用hadoop作为分布式文件系统,hadoop是一个实现了HDFS文件系统和MapReduce的开源项目,我们这里只是 使用了它的hdfs.首先从web页面上上传的文件直接调用...

  • [Hadoop] yarn hadoop mapreduce 2.0 编译 日期:2015-01-20 00:06:49 点击:186 好评:0

    下载 [zhouhh@h185 ~]$ wget http://labs.mop.com/apache-mirror/hadoop/chukwa/stable/chukwa-0.4.0.tar.gz[zhouhh@h185 ~]$ wget http://labs.mop.com/apache-mirror/hadoop/common/hadoop-2.0.1-alpha/hadoop-2.0.1-alpha.tar.gzLength: 82726054 (79M)[z...

  • [Hadoop] 正式生产环境下hadoop集群的DNS+NFS+ssh免密码登陆配置 日期:2015-01-20 00:05:04 点击:166 好评:0

    环境虚拟机centos6.5 主机名h1 IP 192.168.137.11 作为DNS FNS的服务器 主机名h2 IP 192.168.137.12 主机名h3 IP 192.168.137.13 建立DNS(为了取代集群修改hosts带来的大量重复工作) 1.安装DNS在h1上面 检查命令: rpm q bind rpm -q bind-chroot 安装命令...

  • [Hadoop] Hadoop 1.1.2分布式安装过程 (vmware10+centeros5.4 64位+hadoop1.1.2+ securecrt) 日期:2015-01-20 00:02:18 点击:79 好评:0

    Hadoop 1.1.2分布式安装过程 (vmware10+centeros5.464位+hadoop1.1.2+ securecrt) 安装环境 虚拟机:vmware10 操作系统:centeros5.4 64位 Hadoop版本:hadoop1.1.2 Securecrt7.0.0 jdk-7u51-linux-x64.gz 1虚拟机环境配置 1.1在win7系统安装虚拟机vmware1...

  • [Hadoop] Hadoop快速入门 日期:2015-01-19 02:22:41 点击:74 好评:0

    目的 这篇文档的目的是帮助你快速完成单机上的Hadoop安装与使用以便你对Hadoop分布式文件系统( HDFS )和Map-Reduce框架有所体会,比如在HDFS上运行示例程序或简单作业等。 先决条件 支持平台 GNU/Linux是产品开发和运行的平台。 Hadoop已在有2000个节点的GNU...

  • [Hadoop] hadoop单机模式和伪分布式模式安装过程 日期:2015-01-19 02:22:06 点击:196 好评:0

    login as root #cd ~ #wgethttp://apache.freelamp.com/hadoop/core/stable/hadoop-0.20.2.tar.gz #mkdir /opt/hadoop #cd /opt/hadoop #mv /root/hadoop-0.20.2.tar.gz . #tar xzvf hadoop-0.20.2.tar.gz #cd hadoop-0.20.2 #vi conf/hadoop-env.sh 加入 ex...

  • [Hadoop] Hadoop异常 hdfs.DFSClient: DataStreamer Exception: org.apache.hadoop.ipc.RemoteException 日期:2015-01-19 02:21:43 点击:201 好评:-2

    机器环境:ubuntu 11.10 64位 hadoop版本:1.0.1 按照http://hadoop.apache.org/common/docs/stable/single_node_setup.html上描述做单击为分布式测试时抛异常: root@ubuntu:~/sse/hadoop/hadoop-1.0.1# bin/hadoop fs -put conf input 12/03/15 20:45:37 W...

  • [Hadoop] Hadoop 2.0 安装向导 (0.23.x) 日期:2015-01-19 02:20:53 点击:120 好评:0

    Hadoop 2.0 安装向导 (0.23.x) 最新版本的 HADOOP2.0 与老版本相比有不同的目录结构。 本文将介绍一种简单安装 Hadoop2.0 到你的电脑上的方法( Hadoop 0.23 安装)。 这有许多可以执行的方式,现在介绍以下: 如果想安装老版本的 hadoop 此处不再介绍。 首...

  • [Hadoop] CentOS6.2上安装Hadoop-2.0.0-alpha(独立版)和jdk7 日期:2015-01-19 02:18:43 点击:186 好评:0

    硬件: Dell PowerEdge SC420 Pentium 4GB RAM 80GBHDD 系统: CentOS 6.2 下载地址: ftp://mirror.nandomedia.com/pub/CentOS/6.2/isos/i386/CentOS-6.2-i386-LiveCD.iso 烧制CD 从CD引导启动 安装CentOS 6.2 从桌面单击Install onto Hard Disk Drive 重启...

  • [Hadoop] CentOS 6.5 配置hadoop 2.6.0伪分布式 日期:2015-01-18 02:27:46 点击:227 好评:-2

    操作系统:CentOS 6.5 32位 Java环境:jdk 1.7.0_71 hadoop下载地址:http://apache.fayea.com/hadoop/common/stable/hadoop-2.6.0.tar.gz 1.创建用户组和用户 使用su命令切换用户为root groupaddhadoop useraddhadoophadoop passwdhadoop#为用户添加密码可...

  • [Hadoop] Hadoop启动,停止,与其中的守护进程的启动停止 日期:2015-01-16 00:50:22 点击:116 好评:0

    版本Hadoop-1.2.1 启动脚本 脚本说明 start-all.sh 启动所有的Hadoop守护进程。包括NameNode、 Secondary NameNode、DataNode、JobTracker、 TaskTrack stop-all.sh 停止所有的Hadoop守护进程。包括NameNode、 Secondary NameNode、DataNode、JobTracker、 T...

  • [Hadoop] Hadoop的几个守护进程 日期:2015-01-16 00:49:25 点击:122 好评:0

    安装好Hadoop后,使用jps会出现一下几个进程 master中有: namenode secondaryNameNode jobTracker slaves中有 tasktracker datanode 1. NameNode 它是Hadoop 中的主服务器,管理文件系统名称空间和对集群中存储的文件的访问。 2. SecondaryNameNode 它不是...

栏目列表
推荐内容