欢迎光临IT网Linux学习频道

当前位置: > Linux集群 >
  • [Hadoop] Hadoop:The Definitive Guid 总结 Chapter 9 构建MapReduce集群 日期:2014-12-30 23:26:18 点击:104 好评:0

    1.集群规范 1)配置规范 一般Hadoop DataNode和TaskTracker节点典型机器具有吐下规范: 处理器:2个四核 2~2.5 GHz CPU 内存:16~24 ECC RAM 存储器:4*1TB SATA 磁盘 网络:千兆以太网 2).网络拓扑 Hadoop集群架构包含两级网络拓扑,如下图所示,机架拓扑由...

  • [Hadoop] Hadoop:The Definitive Guid 总结 Chapter 10 管理Hadoop 日期:2014-12-30 23:25:42 点击:149 好评:0

    1.HDFS 1).永久性数据结构 A.NameNode的目录结构 NameNode被格式化之后,将产生所示的目录结构: ${dfs.name.dir}/current/VERSION /edits /fsimage /fstime dfs.name.dir属性中列出的目录的内容都是相同,同为如上所示的目录结构 VERSION文件是一个Java属性...

  • [Hadoop] Notes for Hadoop the definitive guide 日期:2014-12-30 23:23:03 点击:65 好评:0

    1.Introduction to HDFS 1.1.HDFS Concepts 1.1.1.Blocks lHDFS too has the concept of a block, but it is a much larger unit 64 MB by default. lLike in a filesystem for a single disk, files in HDFS are broken into block-sized chunks, which are...

  • [Hadoop] Hadoop的运行痕迹 日期:2014-12-30 23:22:28 点击:182 好评:0

    在使用hadoop的时候,可能遇到各种各样的问题,然而由于hadoop的运行机制比较复杂,因而出现了问题的时候比较难于发现问题。 本文欲通过某种方式跟踪Hadoop的运行痕迹,方便出现问题的时候可以通过这些痕迹来解决问题。 一、环境的搭建 为了能够跟踪这些运行...

  • [Hadoop] HDFS读写过程解析(R1) 日期:2014-12-30 23:21:57 点击:168 好评:0

    一、文件的打开 1.1、客户端 HDFS打开一个文件,需要在客户端调用DistributedFileSystem.open(Path f, int bufferSize),其实现为: public FSDataInputStream open(Path f, int bufferSize) throws IOException { return new DFSClient.DFSDataInputStream(...

  • [Hadoop] HDFS简介 (R1) 日期:2014-12-30 23:21:27 点击:151 好评:0

    一、HDFS的基本概念 1.1、数据块(block) HDFS(Hadoop Distributed File System)默认的最基本的存储单位是64M的数据块。 和普通文件系统相同的是,HDFS中的文件是被分成64M一块的数据块存储的。 不同于普通文件系统的是,HDFS中,如果一个文件小于一个数据块...

  • [Hadoop] Map-Reduce入门 (R1) 日期:2014-12-30 23:21:20 点击:195 好评:0

    1、Map-Reduce的逻辑过程 假设我们需要处理一批有关天气的数据,其格式如下: 按照ASCII码存储,每行一条记录 每一行字符从0开始计数,第15个到第18个字符为年 第25个到第29个字符为温度,其中第25位是符号+/- 0067011990999991950051507+0000+ 004301199099...

  • [Hadoop] hadoop0.20.2完全分布模式安装和配置 日期:2014-12-30 23:19:00 点击:172 好评:0

    ----------------------------------------------------------- hadoop集群规划 IP地址 hostname ------------ -------- 10.10.10.100master(namenode,secondary namenode,job tracker) 10.10.10.101slave1(datanode,tasktracker) 10.10.10.102slave2(datano...

  • [Hadoop] hadoop0.20.2伪分布模式安装和配置 日期:2014-12-30 23:18:20 点击:102 好评:0

    虚拟机软件VMWare Server2.0 操作系统:RedHat Enterprise Linux Server 5.3(32bit) hadoop版本:0.20.2 jdk版本:1.7 注意:各操作用户请注意查看命令行的提示符 1、首先查看下该虚拟机系统的网络配置 [root@hadoop ~]# cat /etc/hosts # Do not remove the...

  • [Hadoop] hadoop-集群管理(1)——配置文件 日期:2014-12-30 23:16:51 点击:194 好评:0

    1. 配置文件列表如下: [tianyc@Route conf]$ pwd /home/tianyc/hadoop-1.0.4/conf [tianyc@Route conf]$ ll 总用量 76 -rw-rw-r--. 1 tianyc NEU 7457 3月 6 10:38 capacity-scheduler.xml -rw-rw-r--. 1 tianyc NEU 535 3月 6 10:38 configuration.xsl -rw...

  • [Hadoop] hadoop-集群管理(2)——内存设置 日期:2014-12-30 23:15:49 点击:83 好评:0

    1. 内存 hadoop为各个守护进程(namenode,secondarynamenode,jobtracker,datanode,tasktracker)统一分配的内存在hadoop-env.sh中设置,参数为HADOOP_HEAPSIZE,默认为1000M。 大部分情况下,这个统一设置的值可能并不适合。例如对于namenode节点,1000M的内...

  • [Hadoop] hadoop-集群管理(3)——不常用参数 日期:2014-12-30 23:15:25 点击:202 好评:0

    1. hadoop日志目录 默认存放在hadoop安装目录下的logs文件夹中,也可以通过hadoop-env.sh中的HADOOP_LOG_DIR变量来修改。一般建议修改默认值,使之独立于hadoop安装目录,这样便于以后的升级。 hadoop日志文件的名称格式为hadoop-用户名-守护进程名-本地主机...

  • [Hadoop] hadoop-集群管理(4)——关键属性 日期:2014-12-30 23:14:43 点击:93 好评:0

    hadoop中的配置属性非常多,这里只讨论关键属性,它们分散在3个文件中:core-site.xml、hdfs-site.xml、mapred-site.xml。 1. core-site.xml configuration property namefs.default.name/name valuehdfs://Route:9000/value finaltrue/final /property /con...

  • [Hadoop] RHEL5 hadoop2.4.1 rsync配置 日期:2014-12-30 23:12:58 点击:142 好评:0

    首先下载对应linux的rsync软件:http://rsync.samba.org/download.html 本例中,下载rsync-3.1.1-1.el5.rfx.i386.rpm 22-Jun-2014 21:58 420K RHEL5 and CentOS-5 x86 32bit 服务端配置 [root@master software]#pwd /root/software [root@master software]#ll...

  • [Hadoop] hadoop命令详解 日期:2014-12-30 23:12:15 点击:132 好评:0

    一、用户命令 1、archive命令 (1).什么是Hadoop archives? Hadoop archives是特殊的档案格式。一个Hadoop archive对应一个文件系统目录。 Hadoop archive的扩展名是*.har。Hadoop archive包含元数据(形式是_index和_masterindx)和数据文件(part-*)。_index文...

  • [Hadoop] Hadoop命令大全 日期:2014-12-30 23:09:47 点击:164 好评:0

    1、列出所有Hadoop Shell支持的命令 $ bin/hadoop fs -help 2、显示关于某个命令的详细信息 $ bin/hadoop fs -help command-name 3、用户可使用以下命令在指定路径下查看历史日志汇总 $ bin/hadoop job -history output-dir 这条命令会显示作业的细节信息,...

  • [Hadoop] hadoop 2.2.0安装开发环境(单机伪分布模式) 日期:2014-12-30 23:08:30 点击:142 好评:0

    最近一直在自学Hadoop,今天花点时间搭建一个开发环境,并整理成文。 首先要了解一下Hadoop的运行模式: 单机模式(standalone) 单机模式是Hadoop的默认模式。当首次解压Hadoop的源码包时,Hadoop无法了解硬件安装环境,便保守地选择了最小配置。在这种默认...

  • [Hadoop] 腾讯大规模Hadoop集群实践 日期:2014-12-30 23:07:52 点击:206 好评:0

    TDW(Tencent distributed Data Warehouse,腾讯分布式数据仓库)基于开源软件Hadoop和Hive进行构建,打破了传统数据仓库不能线性扩展、可控性差的局限,并且根据腾讯数据量大、计算复杂等特定情况进行了大量优化和改造。 TDW服务覆盖了腾讯绝大部分业务产品...

  • [Hadoop] hadoop 单机版部署步骤 日期:2014-12-30 23:06:39 点击:165 好评:0

    第一步:配置机器ip和网络环境,关闭防火墙,启动ssh服务 ,修改 /etc/hosts 使用setup命令 Firewall configuration disabled System services ssh 退出setup 执行命令:/sbin/service sshd start 修改/etc/hosts : vi/etc/hosts添加 192.168.128.135(虚拟机IP)...

  • [Hadoop] hadoop2.4.1 fs shell 日期:2014-12-30 23:05:43 点击:151 好评:0

    转载地址: http://hadoop.apache.org/docs/r2.4.1/hadoop-project-dist/hadoop-common/FileSystemShell.html Overview appendToFile cat chgrp chmod chown copyFromLocal copyToLocal count cp du dus expunge get getfacl getmerge ls lsr mkdir moveFrom...

  • [Hadoop] Hadoop Shell命令 日期:2014-12-30 23:05:11 点击:82 好评:0

    FS Shell cat chgrp chmod chown copyFromLocal copyToLocal cp du dus expunge get getmerge ls lsr mkdir movefromLocal mv put rm rmr setrep stat tail test text touchz FS Shell 调用文件系统(FS)Shell命令应使用 bin/hadoop fs args的形式。 所有的的...

  • [Hadoop] hadoop2.4.1_WordCount测试 日期:2014-12-30 23:04:27 点击:118 好评:0

    hadoop2.4.1完全分布式安装:http://blog.itpub.net/26613085/viewspace-1219710/ [hadoop@master mapreduce]$ hadoop fs -ls /input 14/07/18 09:31:08 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using buil...

  • [Hadoop] hadoop2.4.1完全分布式安装 日期:2014-12-30 23:03:54 点击:134 好评:0

    本文(亲测实录)主要列出在安装hadoop 2.4.1过程中各个文件配置情况,其他步骤请参考网络其他资源进行操作 1、JDK安装和SSH互信(略过) 2、各节点IP和hostname如下(各节点需配置) [hadoop@master ~]$ cat /etc/hosts 127.0.0.1 localhost 100.12.56.221...

  • [Hadoop] 超详细单机版搭建hadoop环境图文解析 日期:2014-12-30 01:54:08 点击:185 好评:0

    前言: 年前,在老大的号召下,我们纠集了一帮人搞起了hadoop,并为其取了个响亮的口号云在手,跟我走。大家几乎从零开始,中途不知遇到多少问题,但终 于在回家之前搭起了一个拥有12台服务器的集群,并用命令行在该集群上运行了一些简单的mapreduce程序。想...

  • [Hadoop] hbase+hive应用场景 日期:2014-12-30 01:53:19 点击:79 好评:0

    一.Hive应用场景 本文主要讲述使用 Hive 的实践,业务不是关键,简要介绍业务场景,本次的任务是对搜索日志数据进行统计分析。 集团搜索刚上线不久,日志量并不大 。这些日志分布在 5 台前端机,按小时保存,并以小时为周期定时将上一小时产生的数据同步到日...

  • [Hadoop] 用hdfs存储海量的视频数据的设计思路 日期:2014-12-30 01:52:53 点击:131 好评:-2

    用hdfs存储海量的视频数据 存储海量的视频数据,主要考虑两个因素:如何接收视频数据和如何存储视频数据。 我们要根据数据block在集群上的位置分配计算量,要充分利用带宽的优势。 1.接收视频数据 将从摄像头接收到的或通过模拟产生的视频流以文件的形式存...

  • [Hadoop] hadoop的hdfs文件操作实现上传文件到hdfs 日期:2014-12-30 01:52:22 点击:135 好评:0

    这篇文章主要介绍了使用hadoop的API对HDFS上的文件访问,其中包括上传文件到HDFS上、从HDFS上下载文件和删除HDFS上的文件,需要的朋友可以参考下 hdfs文件操作操作示例,包括上传文件到HDFS上、从HDFS上下载文件和删除HDFS上的文件,大家参考使用吧 复制代码...

  • [Hadoop] 关于Hadoop结合RDBMS应用的一些思考 日期:2014-12-30 01:52:03 点击:190 好评:0

    最近一段时间一直在从事和hadoop相关的工作,主要是技术内容学习、安装配置优化以及一些框架结构的设计。在此期间,我对于RDBMS和Hadoop的结合应用有了一些自己的看法,写出来大家共同探讨一下。 1、为什么要用Hadoop 这个在网上已近有很多的人说过这个问题...

栏目列表
推荐内容