欢迎光临IT网Linux学习频道

当前位置: > Linux集群 > Hadoop >
  • [Hadoop] Hadoop生态图谱 日期:2016-11-27 02:25:30 点击:79 好评:0

    当下Hadoop已经成长为一个庞大的体系,貌似只要和海量数据相关的,没有哪个领域缺少Hadoop的身影,下面是一个Hadoop生态系统的图谱,详细的列举了在Hadoop这个生态系统中出现的各种数据工具。 这一切,都起源自Web数据爆炸时代的来临 数据抓取系统 - Nutch...

  • [Hadoop] HDFS的架构和设计要点 日期:2016-11-27 02:23:26 点击:61 好评:0

    虽然本文已经比较旧远了,但是在很多方面还是有一定学习的价值,中文版译者为 killme 。 一、前提和设计目标 硬件错误是常态,而非异常情况,HDFS可能是有成百上千的server组成,任何一个组件都有可能一直失效,因此错误检测和快速、自动的恢复是HDFS的核心...

  • [Hadoop] MapReduce工作原理简介(以wordcount 为例) 日期:2016-11-27 02:21:26 点击:155 好评:0

    Map-Reduce框架的运作完全基于key,value对,即数据的输入是一批key,value对,生成的结果也是一批key,value对,只是有时候它们的类型不一样而已。Key和value的类由于需要支持被序列化(serialize)操作,所以它们必须要实现Writable接口,而且key的类还必须实...

  • [Hadoop] BloomFilter 简介及在 Hadoop reduce side join 中的应用 日期:2016-11-27 02:20:15 点击:156 好评:0

    1、BloomFilter能解决什么问题? 以少量的内存空间判断一个元素是否属于这个集合, 代价是有一定的错误率 2、工作原理 1. 初始化一个数组, 所有位标为0, A={x1, x2, x3,,xm} (x1, x2, x3,,xm 初始为0) 2. 将已知集合S中的每一个数组, 按以下方式映射到A中 2.0...

  • [Hadoop] Hadoop 多表 join:map side join 范例 日期:2016-11-27 02:20:02 点击:195 好评:0

    在没有 pig 或者 hive 的环境下,直接在 mapreduce 中自己实现 join 是一件极其蛋疼的事情,MR中的join分为好几种,比如有最常见的 reduce side join,map side join,semi join 等。今天我们要讨论的是第 2 种:map side join,这种 join 在处理多个小表关...

  • [Hadoop] 十分钟掌握 MapReduce 的精髓 日期:2016-11-27 02:19:10 点击:144 好评:0

    微软著名的C++大师Herb Sutter在2005年初的时候曾经写过一篇重量级的文章:The Free Lunch Is Over: A Fundamental Turn Toward Concurrency in Software,预言OO之后软件开发将要面临的又一次重大变革-并行计算。 摩尔定律统制下的软件开发时代有一个非常有...

  • [Hadoop] hadoop 作业调优参数整理及原理 日期:2016-11-27 02:17:41 点击:143 好评:0

    1 Map side tuning参数 1.1 MapTask运行内部原理 当map task开始运算,并产生中间数据时,其产生的中间结果并非直接就简单的写入磁盘。这中间的过程比较复杂,并且利用到了内存buffer来进行已经产生的部分结果的缓存,并在内存buffer中进行一些预排序来优化...

  • [Hadoop] Hadoop 稳定性与性能提升浅析 日期:2016-11-27 02:15:46 点击:186 好评:0

    在 2012 Hadoop与大数据技术大会 上,阿里系的无影带来了题为阿里Hadoop集群架构及服务体系的演讲,他主要介绍了阿里集群的发展现状、服务模式和挑战、Hadoop版本特性等方面的内容。本文主要尝试解析该PPT( http://hbtc2012.hadooper.cn/subject/track1lian...

  • [Hadoop] 浅析 Hadoop 中的数据倾斜 日期:2016-11-27 02:14:46 点击:131 好评:0

    最近几次被问到关于数据倾斜的问题,这里找了些资料也结合一些自己的理解. 在并行计算中我们总希望分配的每一个task 都能以差不多的粒度来切分并且完成时间相差不大,但是集群中可能硬件不同,应用的类型不同和切分的数据大小不一致总会导致有部分任务极大的...

  • [Hadoop] Hadoop资源感知调度器简介 日期:2016-11-27 02:14:05 点击:149 好评:0

    先来几个名词解释: hadoop:apache基金会的开源分布式计算平台。 MapReduce :hadoop的分布式计算模型,由map任务和reduce任务组成。 Jobtracker :hadoop计算系统的总控。 Tasktracker :hadoop计算系统的子节点。 Slot(槽位) :tasktracker的最小计算分配...

  • [Hadoop] Hadoop MapReduce 二次排序原理及其应用 日期:2016-11-27 02:12:16 点击:68 好评:0

    关于二次排序主要涉及到这么几个东西: 在0.20.0以前使用的是 setPartitionerClass setOutputkeyComparatorClass setOutputValueGroupingComparator 在0.20.0以后使用是 job.setPartitionerClass(Partitioner p); job.setSortComparatorClass(RawComparator...

  • [Hadoop] 关于 hadoop reduce 阶段遍历 Iterable 的 2 个“坑” 日期:2016-11-27 02:11:05 点击:108 好评:0

    之前有童鞋问到了这样一个问题:为什么我在 reduce 阶段遍历了一次Iterable 之后,再次遍历的时候,数据都没了呢?可能有童鞋想当然的回答:Iterable 只能单向遍历一次,就这样简单的原因。。。事实果真如此吗? 还是用代码说话: package com.test;import j...

  • [Hadoop] 从 secondarynamenode 中恢复 namenode 日期:2016-11-27 02:10:36 点击:99 好评:0

    1.修改conf/core-site.xml,增加 Xml代码 property namefs.checkpoint.period/name value3600/value descriptionThenumberofsecondsbetweentwoperiodiccheckpoints./description /property property namefs.checkpoint.size/name value67108864/value descrip...

  • [Hadoop] 使用hadoop进行大规模数据的全局排序 日期:2016-11-27 02:08:50 点击:120 好评:0

    1. Hellow hadoop~~! Hadoop(某人儿子的一只虚拟大象的名字)是一个复杂到极致,又简单到极致的东西。 说它复杂,是因为一个hadoop集群往往有几十台甚至成百上千台low cost的计算机组成,你运行的每一个任务都要在这些计算机上做任务的分发,执行中间数据排...

  • [Hadoop] MapReduce: 详解 Shuffle 过程 日期:2016-11-27 02:06:54 点击:121 好评:0

    Shuffle过程是MapReduce的核心,也被称为奇迹发生的地方。要想理解MapReduce, Shuffle是必须要了解的。我看过很多相关的资料,但每次看完都云里雾里的绕着,很难理清大致的逻辑,反而越搅越混。前段时间在做MapReduce job 性能调优的工作,需要深入代码研究...

  • [Hadoop] 深入理解Hadoop集群和网络 日期:2016-11-27 02:02:14 点击:105 好评:0

    摘要:本文将着重于讨论Hadoop集群的体系结构和方法,及它如何涉及到网络和服务器基础设施。开始我们先学习一下Hadoop集群运作的基...

  • [Hadoop] hadoop集群增加/删除节点 日期:2016-11-27 02:01:20 点击:69 好评:0

    hadoop要发到每个节点的配置文件,只有core-site.xml mapred-site.xml hdfs-site.xml 添加节点 1.修改host 和普通的datanode一样。添加namenode的ip 2.修改namenode的配置文件conf/slaves 添加新增节点的ip或host 3.在新节点的机器上,启动服务 [root@slave-...

  • [Hadoop] hadoop HDFS详解 日期:2016-11-27 02:00:20 点击:87 好评:0

    一、HDFS的基本概念 1.1、数据块(block) HDFS(Hadoop Distributed File System)默认的最基本的存储单位是64M的数据块。 和普通文件系统相同的是,HDFS中的文件是被分成64M一块的数据块存储的。 不同于普通文件系统的是,HDFS中,如果一个文件小于一个数据块的...

  • [Hadoop] hive 的 简单操作语句 日期:2016-10-06 19:36:55 点击:85 好评:0

    简单的创建表 create table table_name ( id int, dtDontQuery string, name string) 创建有分区的表 create table table_name ( id int, dtDontQuery string, name string)partitioned by (date string) 一个表可以拥有一个或者多个分区,每个分区以文件夹...

  • [Hadoop] Hadoop 的命令笔记 日期:2016-10-06 19:36:30 点击:164 好评:0

    bin/hadoop jar /home/***/secure_hadoop_project.jar package.OldInfoMerge /merges/old.txt /merges/tmp1 查看根目录的列表 bin/hadoop fs -lsr / 单节点启动 5)重启namenode sudo -u hdfs /usr/lib/hadoop/bin/hadoop-daemon.sh --config /etc/hadoop/conf...

  • [Hadoop] Hadoop2 基本配置教程 日期:2016-10-06 19:36:03 点击:88 好评:0

    本文为安装指导,在安装过程中,我们可以注意一下问题: 1.当有多个HDFS集群同时工作时,用户如果不写集群名称,那么默认使用哪个?通过那个文件来进行配置? 2.NameNode、DataNode、JournalNode等存放数据的默认公共目录在什么位置? 3.那个文件可以配置Zoo...

  • [Hadoop] Hive 安装 日期:2016-10-06 19:32:55 点击:129 好评:0

    1 、下载Hive-0.11.0 http://apache.cs.utah.edu/hive/hive-0.11.0/ 2、解压安装 Hive原则上可以安装在集群上的任何一台机器上面,但是考虑到 master节点的负荷比较大,我们选择一台机器性能较好的datanode来安装hive。在我们的集群中选择cloud003来安装hive...

  • [Hadoop] hive从查询中获取数据插入到表或动态分区 日期:2016-10-06 19:32:26 点击:185 好评:0

    Hive的insert语句能够从查询语句中获取数据,并同时将数据Load到目标表中。现在假定有一个已有数据的表staged_employees(雇员信息全量表),所属国家cnty和所属州st是该表的两个属性,我们做个试验将该表中的数据查询出来插入到另一个表employees中。 INSER...

  • [Hadoop] hive 客户端调用脚本无法处理中文问题 日期:2016-10-06 19:30:20 点击:89 好评:0

    export LANG=en_US.UTF-8 export LC_CTYPE=en_US.UTF-8 export LC_NUMERIC=en_US.UTF-8 export LC_TIME=en_US.UTF-8 export LC_COLLATE=en_US.UTF-8 export LC_MONETARY=en_US.UTF-8 export LC_MESSAGES=en_US.UTF-8 export LC_PAPER=en_US.UTF-8 export LC_...

  • [Hadoop] Hadoop 的安全机制 日期:2016-10-06 19:29:33 点击:80 好评:0

    1. 基于角色的授权(Role based authorization) 确保职责的分离 限制功能性的访问 2. 管理和配置(Admin and Configuration) 基于角色的管理 可配置的节点和集群参数 3. 身份认证框架(Authentication framework) 认证节点 认证客户端应用程序(为了访问集...

  • [Hadoop] CentOS 7 安装Hadoop 2.7.1 日期:2016-09-04 01:15:12 点击:173 好评:0

    两台机器 CentOS7(机器名分别为master-CentOS7、slave-CentOS7) 内存2G (笔记本开虚拟机快撑不住了╮(╯-╰)╭ CentOS7 与 CetnOS6 有一些区别 网络配置 master-CentOS7 [root@localhost ~]# vi /etc/sysconfig/network-scripts/ifcfg-eno16777736TYPE=Et...

  • [Hadoop] Hbase/Hadoop Java API编程常用语句 日期:2016-07-24 19:25:42 点击:55 好评:0

    从scanner获取rowkey: for(Result rr : scanner) { String key =Bytes.toString(rr.getRow()) } HBase API - Result object getRow() Method for retrieving the row key that corresponds to the row from which this Result was created....

  • [Hadoop] Hive 打开调试模式 日期:2016-07-24 19:25:08 点击:171 好评:0

    编程过程中发现错误,无法看到具体的错误信息,网上搜了下,按照下面的方法启动Hive Shell就可以打开调试(注意:此方法只对本次回话有效): hive --hiveconf hive.root.logger=DEBUG,console 如果需要对所有会话有效,则可以修改Hive的配置文件。不过不建...

栏目列表
推荐内容