欢迎光临IT网Linux学习频道

当前位置: > Linux集群 >
  • [Hadoop] 浅析 Hadoop 中的数据倾斜 日期:2016-11-27 02:14:46 点击:131 好评:0

    最近几次被问到关于数据倾斜的问题,这里找了些资料也结合一些自己的理解. 在并行计算中我们总希望分配的每一个task 都能以差不多的粒度来切分并且完成时间相差不大,但是集群中可能硬件不同,应用的类型不同和切分的数据大小不一致总会导致有部分任务极大的...

  • [Hadoop] Hadoop资源感知调度器简介 日期:2016-11-27 02:14:05 点击:149 好评:0

    先来几个名词解释: hadoop:apache基金会的开源分布式计算平台。 MapReduce :hadoop的分布式计算模型,由map任务和reduce任务组成。 Jobtracker :hadoop计算系统的总控。 Tasktracker :hadoop计算系统的子节点。 Slot(槽位) :tasktracker的最小计算分配...

  • [Hadoop] Hadoop MapReduce 二次排序原理及其应用 日期:2016-11-27 02:12:16 点击:68 好评:0

    关于二次排序主要涉及到这么几个东西: 在0.20.0以前使用的是 setPartitionerClass setOutputkeyComparatorClass setOutputValueGroupingComparator 在0.20.0以后使用是 job.setPartitionerClass(Partitioner p); job.setSortComparatorClass(RawComparator...

  • [Hadoop] 关于 hadoop reduce 阶段遍历 Iterable 的 2 个“坑” 日期:2016-11-27 02:11:05 点击:108 好评:0

    之前有童鞋问到了这样一个问题:为什么我在 reduce 阶段遍历了一次Iterable 之后,再次遍历的时候,数据都没了呢?可能有童鞋想当然的回答:Iterable 只能单向遍历一次,就这样简单的原因。。。事实果真如此吗? 还是用代码说话: package com.test;import j...

  • [Hadoop] 从 secondarynamenode 中恢复 namenode 日期:2016-11-27 02:10:36 点击:99 好评:0

    1.修改conf/core-site.xml,增加 Xml代码 property namefs.checkpoint.period/name value3600/value descriptionThenumberofsecondsbetweentwoperiodiccheckpoints./description /property property namefs.checkpoint.size/name value67108864/value descrip...

  • [Hadoop] 使用hadoop进行大规模数据的全局排序 日期:2016-11-27 02:08:50 点击:120 好评:0

    1. Hellow hadoop~~! Hadoop(某人儿子的一只虚拟大象的名字)是一个复杂到极致,又简单到极致的东西。 说它复杂,是因为一个hadoop集群往往有几十台甚至成百上千台low cost的计算机组成,你运行的每一个任务都要在这些计算机上做任务的分发,执行中间数据排...

  • [Hadoop] MapReduce: 详解 Shuffle 过程 日期:2016-11-27 02:06:54 点击:121 好评:0

    Shuffle过程是MapReduce的核心,也被称为奇迹发生的地方。要想理解MapReduce, Shuffle是必须要了解的。我看过很多相关的资料,但每次看完都云里雾里的绕着,很难理清大致的逻辑,反而越搅越混。前段时间在做MapReduce job 性能调优的工作,需要深入代码研究...

  • [Hadoop] 深入理解Hadoop集群和网络 日期:2016-11-27 02:02:14 点击:105 好评:0

    摘要:本文将着重于讨论Hadoop集群的体系结构和方法,及它如何涉及到网络和服务器基础设施。开始我们先学习一下Hadoop集群运作的基...

  • [Hadoop] hadoop集群增加/删除节点 日期:2016-11-27 02:01:20 点击:69 好评:0

    hadoop要发到每个节点的配置文件,只有core-site.xml mapred-site.xml hdfs-site.xml 添加节点 1.修改host 和普通的datanode一样。添加namenode的ip 2.修改namenode的配置文件conf/slaves 添加新增节点的ip或host 3.在新节点的机器上,启动服务 [root@slave-...

  • [Hadoop] hadoop HDFS详解 日期:2016-11-27 02:00:20 点击:87 好评:0

    一、HDFS的基本概念 1.1、数据块(block) HDFS(Hadoop Distributed File System)默认的最基本的存储单位是64M的数据块。 和普通文件系统相同的是,HDFS中的文件是被分成64M一块的数据块存储的。 不同于普通文件系统的是,HDFS中,如果一个文件小于一个数据块的...

  • [Memcached] Linux下MemCached安装及c#客户端调用 日期:2016-11-24 23:43:13 点击:194 好评:0

    一、Linux下MemCached安装和启动 如果是centos可以yum安装 # yum install libevent-devel 如果不支持yum的系统,可以这样装libevent # cd /usr/local/src # wget http://www.monkey.org/~provos/libevent-1.4.12-stable.tar.gz # tar vxf libevent-1.4.12-st...

  • [负载均衡SLB] Nginx+Keepalived实现站点高可用 日期:2016-11-24 14:08:04 点击:87 好评:0

    公司内部 OA 系统要做线上高可用,避免单点故障,所以计划使用2台虚拟机通过 Keepalived 工具来实现 nginx 的高可用(High Avaiability),达到一台nginx入口服务器宕机,另一台备机自动接管服务的效果。(nginx做反向代理,实现后端应用服务器的负载均衡)...

  • [服务器集群] Nginx+Tomcat+Session 高性能群集搭建(测试通过) 日期:2016-11-18 11:35:23 点击:62 好评:0

    做了一个nginx+tomcate+Session 的负载均衡的tomcat集群,tomcat是用的6.0, nginx 用的是nginx-1.1.11。测试的目的是看看访问的压力分布和session共享。先看看测试效果。 我在nginx中的nginx.conf中配置的访问权重。是 upstream127.0.0.1{ #weigth参数表示...

  • [Memcached] Linux下Memcached服务器部署 日期:2016-10-11 17:47:58 点击:167 好评:0

    操作系统:CentOS 6.x 64位 实现目的:安装部署Memcached服务器 一、防火墙设置 vi /etc/sysconfig/iptables#编辑防火墙配置文件,添加下面代码 -A INPUT -m state --state NEW -m tcp -p tcp --dport 11211 -j ACCEPT :wq!#保存退出 service iptables resta...

  • [Hadoop] hive 的 简单操作语句 日期:2016-10-06 19:36:55 点击:85 好评:0

    简单的创建表 create table table_name ( id int, dtDontQuery string, name string) 创建有分区的表 create table table_name ( id int, dtDontQuery string, name string)partitioned by (date string) 一个表可以拥有一个或者多个分区,每个分区以文件夹...

  • [Hadoop] Hadoop 的命令笔记 日期:2016-10-06 19:36:30 点击:164 好评:0

    bin/hadoop jar /home/***/secure_hadoop_project.jar package.OldInfoMerge /merges/old.txt /merges/tmp1 查看根目录的列表 bin/hadoop fs -lsr / 单节点启动 5)重启namenode sudo -u hdfs /usr/lib/hadoop/bin/hadoop-daemon.sh --config /etc/hadoop/conf...

  • [Hadoop] Hadoop2 基本配置教程 日期:2016-10-06 19:36:03 点击:88 好评:0

    本文为安装指导,在安装过程中,我们可以注意一下问题: 1.当有多个HDFS集群同时工作时,用户如果不写集群名称,那么默认使用哪个?通过那个文件来进行配置? 2.NameNode、DataNode、JournalNode等存放数据的默认公共目录在什么位置? 3.那个文件可以配置Zoo...

  • [Hadoop] Hive 安装 日期:2016-10-06 19:32:55 点击:129 好评:0

    1 、下载Hive-0.11.0 http://apache.cs.utah.edu/hive/hive-0.11.0/ 2、解压安装 Hive原则上可以安装在集群上的任何一台机器上面,但是考虑到 master节点的负荷比较大,我们选择一台机器性能较好的datanode来安装hive。在我们的集群中选择cloud003来安装hive...

  • [Hadoop] hive从查询中获取数据插入到表或动态分区 日期:2016-10-06 19:32:26 点击:185 好评:0

    Hive的insert语句能够从查询语句中获取数据,并同时将数据Load到目标表中。现在假定有一个已有数据的表staged_employees(雇员信息全量表),所属国家cnty和所属州st是该表的两个属性,我们做个试验将该表中的数据查询出来插入到另一个表employees中。 INSER...

  • [Hadoop] hive 客户端调用脚本无法处理中文问题 日期:2016-10-06 19:30:20 点击:89 好评:0

    export LANG=en_US.UTF-8 export LC_CTYPE=en_US.UTF-8 export LC_NUMERIC=en_US.UTF-8 export LC_TIME=en_US.UTF-8 export LC_COLLATE=en_US.UTF-8 export LC_MONETARY=en_US.UTF-8 export LC_MESSAGES=en_US.UTF-8 export LC_PAPER=en_US.UTF-8 export LC_...

  • [Hadoop] Hadoop 的安全机制 日期:2016-10-06 19:29:33 点击:80 好评:0

    1. 基于角色的授权(Role based authorization) 确保职责的分离 限制功能性的访问 2. 管理和配置(Admin and Configuration) 基于角色的管理 可配置的节点和集群参数 3. 身份认证框架(Authentication framework) 认证节点 认证客户端应用程序(为了访问集...

  • [Memcached] linux 安装memcached 日期:2016-10-03 21:40:57 点击:91 好评:0

    Downloads Latest stable memcached-1.4.29.tar.gz (2016-7-13) ( release notes ) (sha1: 8994b4d0dbcc8d536f3d6cd4763489a3c51ca44b ) Older releases Full list of releases Installation Debian/Ubuntu: apt-get install libevent-dev Redhat/Centos: yu...

  • [Ceph] Ceph v10.2.3 Jewel 发布,分布式文件系统 日期:2016-09-29 17:57:45 点击:101 好评:0

    Ceph v10.2.3 Jewel 发布了。 Ceph是加州大学Santa Cruz分校的Sage Weil(DreamHost的联合创始人)专为博士论文设计的新一代自由软件分布式文件系统。自2007年毕业之后,Sage开始全职投入到Ceph开 发之中,使其能适用于生产环境。Ceph的主要目标是设计成基于...

  • [Memcached] memcache安装 日期:2016-09-10 14:41:09 点击:158 好评:0

    一,memcache简单介绍: memcached是高性能的分布式内存缓存服务器,为了提高性能,memcached中的数据都保存在内存中,重启memcached及重启操作系统都会导致缓存中的数据全部丢失,其缓存的数据达到指定的内存分配值之后,就会使用LRU算法删除不使用的缓存。...

  • [负载均衡SLB] 大型网站架构系列:负载均衡详解 日期:2016-09-04 13:27:41 点击:158 好评:0

    一、软件负载均衡概述 硬件负载均衡性能优越,功能全面,但是价格昂贵,一般适合初期或者土豪级公司长期使用。因此软件负载均衡在互联网领域大量使用。常用的软件负载均衡软件有Nginx,Lvs,HaProxy等。本文参考大量文档,部分为直接拷贝,参考出处文末。 二...

  • [Hadoop] CentOS 7 安装Hadoop 2.7.1 日期:2016-09-04 01:15:12 点击:173 好评:0

    两台机器 CentOS7(机器名分别为master-CentOS7、slave-CentOS7) 内存2G (笔记本开虚拟机快撑不住了╮(╯-╰)╭ CentOS7 与 CetnOS6 有一些区别 网络配置 master-CentOS7 [root@localhost ~]# vi /etc/sysconfig/network-scripts/ifcfg-eno16777736TYPE=Et...

  • [负载均衡SLB] LVS+Keepalived(DR模式)学习笔记 日期:2016-07-27 02:27:08 点击:68 好评:0

    1.简述 在互联网的中型项目中,单服务器往往已经无法满足业务本身的性能要求,这时候就会平行扩展,把负载分摊到数台服务器上(集群)。一般实现集群有DNS轮询,LVS,nginx负载均衡。 集群主要目的包括如下三点:高可用、可扩展、负载均衡。 一个完整的集群架...

  • [Hadoop] Hbase/Hadoop Java API编程常用语句 日期:2016-07-24 19:25:42 点击:55 好评:0

    从scanner获取rowkey: for(Result rr : scanner) { String key =Bytes.toString(rr.getRow()) } HBase API - Result object getRow() Method for retrieving the row key that corresponds to the row from which this Result was created....

栏目列表
推荐内容