欢迎光临IT网Linux学习频道

当前位置: > Linux集群 > Hadoop >
  • [Hadoop] hadoop multipleoutputs 日期:2015-05-11 02:49:08 点击:68 好评:0

    http://grepalex.com/2013/05/20/multipleoutputs-part1/ http://grepalex.com/2013/07/16/multipleoutputs-part2/...

  • [Hadoop] hadoop 文件合并 日期:2015-05-11 02:48:05 点击:121 好评:2

    众所周知,Hadoop对处理单个大文件比处理多个小文件更有效率,另外单个文件也非常占用HDFS的存储空间。所以往往要将其合并起来。 1,getmerge hadoop有一个命令行工具getmerge,用于将一组HDFS上的文件复制到本地计算机以前进行合并 参考:http://hadoop.apa...

  • [Hadoop] hadoop-处理小文件 日期:2015-05-11 02:47:41 点击:71 好评:0

    一个Hadoop程序的优化过程 根据文件实际大小实现CombineFileInputFormat http://www.rigongyizu.com/hadoop-job-optimize-combinefileinputformat/ mapreduce job让一个文件只由一个map来处理 http://www.rigongyizu.com/mapreduce-job-one-map-process-one-...

  • [Hadoop] MapReduce实现大矩阵乘法 日期:2015-05-11 02:47:04 点击:78 好评:0

    引言 何 为大矩阵?Excel、SPSS,甚至SAS处理不了或者处理起来非常困难,需要设计巧妙的分布式方法才能高效解决基本运算(如转置、加法、乘法、求逆) 的矩阵,我们认为其可被称为大矩阵。这意味着此种矩阵的维度至少是百万级的、经常是千万级的、有时是亿万...

  • [Hadoop] Mahout 协同过滤 itemBase RecommenderJob源码分析 日期:2015-05-11 02:46:29 点击:114 好评:0

    Mahout支持2种 M/R 的jobs实现itemBase的协同过滤 I.ItemSimilarityJob II.RecommenderJob 下面我们对RecommenderJob进行分析,版本是mahout-distribution-0.7 源码包位置:org.apache.mahout.cf.taste.hadoop.item.RecommenderJob RecommenderJob前几个阶段...

  • [Hadoop] hadoop mahout 算法和API说明 日期:2015-05-11 02:45:56 点击:71 好评:0

    org.apache.mahout.cf.taste.hadoop.item.RecommenderJob.main(args) --input 偏好数据路径,文本文件。格式 userid\t itemid\t preference --output 推荐结果路径 -- numRecommendations 推荐个数 --usersFile 需要做出推荐的user,默认全部做推荐 --itemsF...

  • [Hadoop] Maven进行Mahout编程,使其兼容Hadoop2.2.0环境运行 (转) 日期:2015-05-11 02:45:18 点击:121 好评:0

    http://blog.csdn.net/u010967382/article/details/39209329 http://blog.csdn.net/fansy1990/article/details/23261633 先编译mahout源码让其支持hadoop2 再把本地仓储repository里的jar包替换成编译后的jar包 修改后的源码包(http://download.csdn.net/de...

  • [Hadoop] hadoop Mahout中相似度计算方法介绍(转) 日期:2015-05-11 02:44:16 点击:190 好评:0

    相似距离(距离越小值越大) 优点 缺点 取值范围 PearsonCorrelation 类似于计算两个矩阵的协方差 不受用户评分偏高 或者偏低习惯影响的影响 1. 如果两个item相似个数小于2时 无法计算相似距离. [可以使用item相似个数门限来解决.] 没有考虑两个用户之间的交集...

  • [Hadoop] mahout基于Hadoop的CF代码分析(转) 日期:2015-05-11 02:43:44 点击:58 好评:0

    来自:http://www.codesky.net/article/201206/171862.html mahout的taste框架是协同过滤算法的实现。它支持DataModel,如文件、数据库、NoSQL存储等,也支持Hadoop的MapReduce。这里主要分析的基于MR的实现。 基于MR的CF实现主要流程就在 org.apache.mahout...

  • [Hadoop] Five Steps to Avoiding Java Heap Space Errors 日期:2015-05-11 02:43:09 点击:75 好评:0

    来自:https://www.mapr.com/blog/how-to-avoid-java-heap-space-errors-understanding-and-managing-task-attempt-memory#.VMWvNDGUfXY Keeping these five steps in mind can save you a lot of headaches and avoid Java heap space errors. Calculate me...

  • [Hadoop] 后Hadoop时代的大数据架构 日期:2015-04-24 16:48:00 点击:197 好评:0

    提到大数据分析平台,不得不说Hadoop系统,Hadoop到现在也超过10年的历史了,很多东西发生了变化,版本也从0.x 进化到目前的2.6版本。我把2012年后定义成后Hadoop平台时代,这不是说不用Hadoop,而是像NoSQL (Not Only SQL)那样,有其他的选型补充。我在知...

  • [Hadoop] hadoop2.5.1环境安装配置 日期:2015-04-22 19:31:48 点击:114 好评:2

    自学hadoop也有一段时间了。这里介绍一下hadoop实验环境的安装配置,给需要学习hadoop的朋友提供参考,也方便以后自己查阅。 这里只是梳理大概的步骤,细节的东西还需要自己多查资料。 1、准备工作 安装好VMware。并且在虚拟机上安装好一个linux系统。我的实...

  • [Hadoop] CentOS下Hadoop2.x伪分布环境搭建 日期:2015-04-11 02:44:25 点击:114 好评:0

    一、环境准备 1) 软件 * CentOS 6.4 64位 * Hadoop2.2.0 * Jdk 1.6+ * Meven3.0.0 2) 修改主机名 * vim /etc/sysconfig/network NETWORKING=yes HOSTNAME=hadoop 主机名自己设置(在后面配置好DNS映射就好) 3) 修改IP地址(设置为静态的) * vim /etc/sysconfig/...

  • [Hadoop] EasyHadoop logoHadoop快速部署工具 EasyHadoop 日期:2015-04-06 19:37:11 点击:166 好评:0

    EasyHadoop 是一个Hadoop一键安装系统,方便大家更容易安装部署Hadoop软件。 EasyHadoop 由前暴风影音数据团队修湘调研,向磊编写,以GPL协议进行开源 开放此管理部署系统方便大家安装使用,以此和行业共同学习进步。 支持特性如下: 1.Haoop 稳定版本 hadoop-1....

  • [Hadoop] hadoop开机启动普通用户脚本 日期:2015-03-26 21:40:16 点击:86 好评:0

    1.把hadoop、starthadoop.sh stophadoop.sh 拷贝/opt/下面 (注starthadoop.sh stophadoop.sh 是开启、关闭hadoop 脚本,可以根据目录不同更改) 2.把hadoop拷贝/etc/rc.d/init.d/下面 3.chmod 755 /opt/starthadoop.sh stophadoop.sh /etc/rc.d/init.d/hadoop...

  • [Hadoop] 创建cloudera hadoop本地源服务器 日期:2015-03-09 21:32:44 点击:160 好评:0

    在部署cloudera hadoop集群中,使用网络安装hadoop网速不太给力,需要创建一个本地源服务器,加速安装过程或者提高增加节点安装部署效率。 创建步骤 1. 如果是安装部署cloudera 4版本,需要先安装cloudera 源RPM文件 for redhat/ centos 5 64位服务器 rpm -Uv...

  • [Hadoop] fluentd结合kibana、elasticsearch实时搜索分析hadoop集群日志 日期:2015-03-09 21:31:26 点击:298 好评:0

    Fluentd是一个开源收集事件和日志系统,它目前提供150+扩展插件让你存储大数据用于日志搜索,数据分析和存储。 官方地址 http://fluentd.org/ 插件地址 http://fluentd.org/plugin/ Kibana 是一个为 ElasticSearch 提供日志分析的 Web ui工具,可使用它对日...

  • [Hadoop] CentOS6.5 安装 Hadoop 日期:2015-02-28 00:55:52 点击:200 好评:0

    Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set...

  • [Hadoop] Hadoop/Yarn/MapReduce内存分配(配置)方案 日期:2015-02-27 01:34:32 点击:186 好评:0

    以horntonworks给出推荐配置为蓝本,给出一种常见的Hadoop集群上各组件的内存分配方案。方案最右侧一栏是一个8G VM的分配方案,方案预留1-2G的内存给操作系统,分配4G给Yarn/MapReduce,当然也包括了HIVE,剩余的2-3G是在需要使用HBase时预留给HBase的。 Con...

  • [Hadoop] hadoop启动脚本解读 日期:2015-02-27 01:32:11 点击:189 好评:0

    本文以start-dfs.sh为例向下延展解释各脚本的作用和相互关系,对于start-yarn.sh同理可证。下图解释了各个脚本的作用: 注意:slaves.sh在通过SSH推送命令时,会首先读取$HADOOP_SLAVE_NAMES这个数组中的机器列表作为推送目标,当这个数组为空时才使用slaves...

  • [Hadoop] 配置NTP服务ntpd/ntp.conf(搭建Hadoop集群可参考) 日期:2015-02-27 01:28:16 点击:211 好评:0

    本文拟定是在一个局域网内(比如一个Hadoop集群)设定一台NTP服务器作为整个网络的标准时间参考,使用网络(集群)内的所有机器保持时间一致!以下是详细的操作步骤: 1. 修改选定的服务器的本地时间 #date -s 2014-11-21 12:48:30 +%F %T #2014-11-21 12:48:...

  • [Hadoop] 配置高可用的Hadoop平台 日期:2015-02-25 23:03:37 点击:85 好评:0

    1.概述 在Hadoop2.x之后的版本,提出了解决单点问题的方案--HA(High Available 高可用)。这篇博客阐述如何搭建高可用的HDFS和YARN,执行步骤如下: 创建hadoop用户 安装JDK 配置hosts 安装SSH 关闭防火墙 修改时区 ZK(安装,启动,验证) HDFS+HA的结...

  • [Hadoop] Hadoop jobhistory历史服务器介绍 日期:2015-02-23 23:27:21 点击:131 好评:0

    Hadoop自带了一个历史服务器,可以通过历史服务器查看已经运行完的Mapreduce作业记录,比如用了多少个Map、用了多少个Reduce、作业提交时间、作业启动时间、作业完成时间等信息。默认情况下,Hadoop历史服务器是没有启动的,我们可以通过下面的命令来启动Had...

  • [Hadoop] 修改HDFS文件块大小 日期:2015-02-23 23:26:53 点击:121 好评:0

    1 通过Hadoop自带的WEB监控管理界面我们可以看到文件块的大小现在为64MB。 2 关闭集群 3 设置每个namenode节点和datanode节点的hdfs-site.xml文件,将文件中 的dfs.block.size属性值改为33554432(32M),重启集群 4 再次添加一个文件 会看到文件块的大小变...

  • [Hadoop] 基于Hadoop0.20.2版本的namenode与secondarynamenode分离实验 日期:2015-02-23 23:26:01 点击:96 好评:0

    我们在Hadoop配置集群时,经常将namenode与secondarynamenode存放在一个节点上,其实这是非常危险的,如果此节点崩溃的话,则整个集群不可恢复。下面介绍一下将namenode与secondarynamenode分离的方法。当然还存在好多不足和待改进的地方,欢迎各位大神指点...

  • [Hadoop] Hadoop集群部署时候的几个问题记录 日期:2015-02-23 23:25:06 点击:160 好评:0

    由于Hadoop 2.5.x 已经出来有好几个月了,网上配置类似架构的文章也有很多,所以在这里重点描述一下namenode 和 secondary namenode不再同一台机器上的配置方法,以及namenode 宕机后 meta数据的恢复方法,并且描述一下几个主要配置文件中配置项的意义。 集...

  • [Hadoop] Hadoop单节点安装部署 日期:2015-02-23 23:24:38 点击:77 好评:0

    从零开始 机器环境 Distributor ID:CentOS Description: CentOS release 5.8 (Final) Release: 5.8 Codename: Final jdk 版本 java version 1.6.0_45 hadoop 版本 2.5.2 http://mirrors.cnnic.cn/apache/hadoop/common/hadoop-2.5.2/ 安装jdk: 从甲骨文官方...

  • [Hadoop] Hadoop中HDFS读取文件的原理剖析 日期:2015-02-23 23:23:54 点击:145 好评:0

    Hadoop文件存储的一些逻辑与简单原理,既然后写入,那肯定要读取分析数据咯,下面我在白话一下hdfs中文件读取的逻辑与简单原理。 第一步:跟写入文件一样,首先客户端会调用DistributedFilesyStem 对象的open()方法来打开文件,这个方法要做的事情就是:Di...

栏目列表
推荐内容