• Hadoop CDH5 Spark部署

    日期:

    Spark是一个基于内存计算的开源的集群计算系统,目的是让数据分析更加快速,Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越,换句话说,Spark 启用了内存分...

  • hadoop云框架配置方案

    日期:

    虽然和GOOGLE的云计算框架相差很远,但是基本能够实现云框架还是可以的,我选择了hadoop,最近这个框架在网络上炒的很火,一部分IT高手加入了开发队列,本人也不例外(不过我不是高手,只是一个很普通的系统架构师而已)。 好了废话少说,直接切入主题吧 首先使...

  • hadoop原理浅析及安装

    日期:

    经过几天的测试,hadoop分布式系统搭建完毕。首先说一下这几天对hadoop理论知识的理解,然后说一下安装及碰到的问题。有图有真相http://192.168.0.20:50070/dfshealth.jsp 第一:理论知识: 什么是hadoop: 由三部分组成:HDFS,MapReduce和Hbase。 维基百科...

  • HDFS 常用的文件操作命令

    日期:

    1.-cat 使用方法:hadoop fs -cat URI 说明:将路径指定的文件输出到屏幕 示例: hadoop fs -cat hdfs://host1:port1/file hadoop fs -cat file:///file3 2.-copyFromLocal 使用方法:hadoop fs -copyFromLocal localsrcURI 说明: 将本地文件复制到 HDFS 中...

  • Hadoop2.2.0+Hive0.13+MySQL5.1集成安装

    日期:

    安装的Hive是Hive最新版本中的稳定版本,是基于Hadoop2.2.0,以前有写过,如何在hadoop1.x下面安装Hive0.8,本次Hive的版本是Hive0.13,可以直接在Hive官网上下载二进制包,无须进行源码编译。Hive需要依赖底层的Hadoop环境,所以在安装Hive前,请确保你的had...

  • Hadoop2.2.0伪分布式完全安装手册

    日期:

    网络上充斥着大量Hadoop1的教程,版本老旧,Hadoop2的中文资料相对较少,本教程的宗旨在于从Hadoop2出发,结合作者在实际工作中的经验,提供一套最新版本的Hadoop2相关教程。 为什么是Hadoop2.2.0,而不是Hadoop2.4.0 本文写作时,Hadoop的最新版本已经是2.4...

  • hadoop常见配置含义

    日期:

    参数 取值 备注 fs.default.name NameNode 的URI。 hdfs://主机名/ dfs.hosts/dfs.hosts.exclude 许可/拒绝DataNode列表。 如有必要,用这个文件控制许可的datanode列表。 dfs.replication 默认: 3 数据复制的分数 dfs.name.dir 举例: /home/username/hado...

  • hadoop安装及配置流程

    日期:

    Hadoop环境配置以及安装过程: 1、Linux系统安装,以及网络的搭建 1.1 网络的选择为host-only模式 1.2 启动vmwave的虚拟网络配置器 1.3修改ip地址,将VMware网络配置器中的iP地址设置成192.168.80.1,在Linux中网络连接中将连接更改为manual(自定义),并设...

  • Hadoop 的 Server 及其线程模型分析

    日期:

    一、Listener Listener线程,当Server处于运行状态时,其负责监听来自客户端的连接,并使用Select模式处理Accept事件。 同时,它开启了一个空闲连接(Idle Connection)处理例程,如果有过期的空闲连接,就关闭。这个例程通过一个计时器来实现。 当select操...

  • Linux 下 Hadoop 2.6.0 集群环境的搭建

    日期:

    本文旨在提供最基本的,可以用于在生产环境进行Hadoop、HDFS分布式环境的搭建,对自己是个总结和整理,也能方便新人学习使用。 基础环境 JDK的安装与配置 现在直接到Oracle官网(http://www.oracle.com/)寻找JDK7的安装包不太容易,因为现在官方推荐JDK8。...