• Hadoop:The Definitive Guid 总结 Chapter 4 Hadoop I/O

    日期:

    1.数据的完整性 1).HDFS的数据完整性 HDFS以透明方式校验所有写入它的数据,并在默认设置下,会在读取数据时验证校验和。针对数据的每个io.bytes.per.checksum字节都会创建一个单独的校验和。默认值为512字节; DataNode负责在存储数据(包括数据的校验和)...

  • Hadoop:The Definitive Guid 总结 Chapter 5 MapReduce应用开发 (R1)

    日期:

    用MapReduce来编写程序,有几个主要的特定流程,首先写map函数和reduce函数,最好使用单元测试来确保函数的运行符合预期,然后,写一个驱动程序来运行作业,要看这个驱动程序是否可以运行,之后利用本地IDE调试,修改程序 实际上权威指南的一些配置已经过时...

  • Hadoop:The Definitive Guid 总结 Chapter 6 MapReduce的工作原理(R1)

    日期:

    1.剖析MapReduce作业运行机制 1).经典MapReduce--MapReduce1.0 整个过程有有4个独立的实体 客户端:提交MapReduce JobTracker:协调作业的运行 TaskTracker:运行作业划分后的任务 HDFS:用来在其他实体之间共享作业文件 以下为运行整体图 A.作业的提交 JobC...

  • Hadoop:The Definitive Guid 总结 Chapter 7 MapReduce的类型与格式

    日期:

    MapReduce数据处理模型非常简单:map和reduce函数的输入和输出是键/值对(key/value pair) 1.MapReduce的类型 Hadoop的MapReduce一般遵循如下常规格式: map(K1, V1) list (K2, V2) combine(K2, list(V2)) list(K2, V2) partition(K2, V2) integer reduce(K2,...

  • Hadoop:The Definitive Guid 总结 Chapter 8 MapReduce的特性

    日期:

    1.计数器 计数器是一种收集Job统计的有效手段,用于质量控制或应用级统计。计数器的应用使得获取统计数据比使用日志文件获取数据更加容易。 1).内置计数器 Hadoop的内置计数器用来描述Job的各项指标,例如已处理的字节数和记录数,输入数据量和输出数据量。...

  • Hadoop:The Definitive Guid 总结 Chapter 9 构建MapReduce集群

    日期:

    1.集群规范 1)配置规范 一般Hadoop DataNode和TaskTracker节点典型机器具有吐下规范: 处理器:2个四核 2~2.5 GHz CPU 内存:16~24 ECC RAM 存储器:4*1TB SATA 磁盘 网络:千兆以太网 2).网络拓扑 Hadoop集群架构包含两级网络拓扑,如下图所示,机架拓扑由...

  • Hadoop:The Definitive Guid 总结 Chapter 10 管理Hadoop

    日期:

    1.HDFS 1).永久性数据结构 A.NameNode的目录结构 NameNode被格式化之后,将产生所示的目录结构: ${dfs.name.dir}/current/VERSION /edits /fsimage /fstime dfs.name.dir属性中列出的目录的内容都是相同,同为如上所示的目录结构 VERSION文件是一个Java属性...

  • Notes for Hadoop the definitive guide

    日期:

    1.Introduction to HDFS 1.1.HDFS Concepts 1.1.1.Blocks lHDFS too has the concept of a block, but it is a much larger unit 64 MB by default. lLike in a filesystem for a single disk, files in HDFS are broken into block-sized chunks, which are...

  • Hadoop的运行痕迹

    日期:

    在使用hadoop的时候,可能遇到各种各样的问题,然而由于hadoop的运行机制比较复杂,因而出现了问题的时候比较难于发现问题。 本文欲通过某种方式跟踪Hadoop的运行痕迹,方便出现问题的时候可以通过这些痕迹来解决问题。 一、环境的搭建 为了能够跟踪这些运行...

  • HDFS读写过程解析(R1)

    日期:

    一、文件的打开 1.1、客户端 HDFS打开一个文件,需要在客户端调用DistributedFileSystem.open(Path f, int bufferSize),其实现为: public FSDataInputStream open(Path f, int bufferSize) throws IOException { return new DFSClient.DFSDataInputStream(...