欢迎光临IT网Linux学习频道

当前位置: > Linux集群 >
  • [Hadoop] 机器重启hadoop报错:FSNamesystem initialization failed 日期:2016-11-27 02:26:09 点击:59 好评:0

    1. 基本信息 hadoop 版本 hadoop-0.20.205.0.tar.gz 操作系统 ubuntu 2. 问题 在使用Hadoop开发初期的时候遇到一个问题。 每次重启系统后发现不能正常运行hadoop。必须执行 bin/hadoop namenode -format 进行格式化才能成功运行hadoop,但是也就意味着以前记...

  • [Hadoop] Hadoop生态图谱 日期:2016-11-27 02:25:30 点击:79 好评:0

    当下Hadoop已经成长为一个庞大的体系,貌似只要和海量数据相关的,没有哪个领域缺少Hadoop的身影,下面是一个Hadoop生态系统的图谱,详细的列举了在Hadoop这个生态系统中出现的各种数据工具。 这一切,都起源自Web数据爆炸时代的来临 数据抓取系统 - Nutch...

  • [Hadoop] HDFS的架构和设计要点 日期:2016-11-27 02:23:26 点击:61 好评:0

    虽然本文已经比较旧远了,但是在很多方面还是有一定学习的价值,中文版译者为 killme 。 一、前提和设计目标 硬件错误是常态,而非异常情况,HDFS可能是有成百上千的server组成,任何一个组件都有可能一直失效,因此错误检测和快速、自动的恢复是HDFS的核心...

  • [Hadoop] MapReduce工作原理简介(以wordcount 为例) 日期:2016-11-27 02:21:26 点击:155 好评:0

    Map-Reduce框架的运作完全基于key,value对,即数据的输入是一批key,value对,生成的结果也是一批key,value对,只是有时候它们的类型不一样而已。Key和value的类由于需要支持被序列化(serialize)操作,所以它们必须要实现Writable接口,而且key的类还必须实...

  • [Hadoop] BloomFilter 简介及在 Hadoop reduce side join 中的应用 日期:2016-11-27 02:20:15 点击:156 好评:0

    1、BloomFilter能解决什么问题? 以少量的内存空间判断一个元素是否属于这个集合, 代价是有一定的错误率 2、工作原理 1. 初始化一个数组, 所有位标为0, A={x1, x2, x3,,xm} (x1, x2, x3,,xm 初始为0) 2. 将已知集合S中的每一个数组, 按以下方式映射到A中 2.0...

  • [Hadoop] Hadoop 多表 join:map side join 范例 日期:2016-11-27 02:20:02 点击:195 好评:0

    在没有 pig 或者 hive 的环境下,直接在 mapreduce 中自己实现 join 是一件极其蛋疼的事情,MR中的join分为好几种,比如有最常见的 reduce side join,map side join,semi join 等。今天我们要讨论的是第 2 种:map side join,这种 join 在处理多个小表关...

  • [Hadoop] 十分钟掌握 MapReduce 的精髓 日期:2016-11-27 02:19:10 点击:144 好评:0

    微软著名的C++大师Herb Sutter在2005年初的时候曾经写过一篇重量级的文章:The Free Lunch Is Over: A Fundamental Turn Toward Concurrency in Software,预言OO之后软件开发将要面临的又一次重大变革-并行计算。 摩尔定律统制下的软件开发时代有一个非常有...

  • [Hadoop] hadoop 作业调优参数整理及原理 日期:2016-11-27 02:17:41 点击:143 好评:0

    1 Map side tuning参数 1.1 MapTask运行内部原理 当map task开始运算,并产生中间数据时,其产生的中间结果并非直接就简单的写入磁盘。这中间的过程比较复杂,并且利用到了内存buffer来进行已经产生的部分结果的缓存,并在内存buffer中进行一些预排序来优化...

  • [Hadoop] Hadoop 稳定性与性能提升浅析 日期:2016-11-27 02:15:46 点击:186 好评:0

    在 2012 Hadoop与大数据技术大会 上,阿里系的无影带来了题为阿里Hadoop集群架构及服务体系的演讲,他主要介绍了阿里集群的发展现状、服务模式和挑战、Hadoop版本特性等方面的内容。本文主要尝试解析该PPT( http://hbtc2012.hadooper.cn/subject/track1lian...

  • [Hadoop] 浅析 Hadoop 中的数据倾斜 日期:2016-11-27 02:14:46 点击:131 好评:0

    最近几次被问到关于数据倾斜的问题,这里找了些资料也结合一些自己的理解. 在并行计算中我们总希望分配的每一个task 都能以差不多的粒度来切分并且完成时间相差不大,但是集群中可能硬件不同,应用的类型不同和切分的数据大小不一致总会导致有部分任务极大的...

  • 首页
  • 上一页
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 下一页
  • 末页
  • 80795
栏目列表
推荐内容