• MapReduce简单使用

    日期:

    目录[-] 1、启动hadoop工程 2、MapReduce统计文本单词数量 2、MapReduce排除文本重复数据 3、MapReduce实线文本数据的简单排序 4、MapReduce实线单表连接 1、启动hadoop工程 2、MapReduce统计文本单词数量 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19...

  • 基本hadoop文件操作

    日期:

    目录[-] 1、启动hadoop工程 2、eclipse导入插件 3、在Map/Reduce的窗口下建立连接(单机版) 4、创建工程,导入jar,配置文件 5、hadoop操作文件 1、启动hadoop工程 2、eclipse导入插件 将hadoop-eclipse-plugin-2.6.0.jar插件导入eclipse中,重启eclipse 3...

  • ubuntu14.04 安装hadoop

    日期:

    目录[-] 1、下载hadoop,解压 2、配置.bashrc文件 4、配置hadoop-env.sh文件 5、配置mapred-site.xml文件 6、配置core-site.xml文件 7、配置yarn-site.xml文件 8、配置hdfs-site.xml文件 9、设置面密码登录 10、格式化hadoop数据 10、启动hadoop 11、查看had...

  • hadoop 网站日志分析

    日期:

    一、项目要求 本文讨论的日志处理方法中的日志,仅指Web日志。其实并没有精确的定义,可能包括但不限于各种前端Web服务器apache、lighttpd、nginx、tomcat等产生的用户访问日志,以及各种Web应用程序自己输出的日志。 二、需求分析: KPI指标设计 PV(PageVie...

  • hadoop-双色球-统计

    日期:

    1/使用hadoop把双色球相邻的红球进行统计: 测试数据在:http://pan.baidu.com/s/1hq82YrU 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55...

  • 基于Eclipse的Hadoop应用开发环境配置

    日期:

    基于Eclipse的Hadoop应用开发环境配置 我的开发环境: 操作系统centos5.5 一个namenode 两个datanode Hadoop版本:hadoop-0.20.203.0 Eclipse版本:eclipse-java-helios-SR2-linux-gtk.tar.gz(使用3.7的版本总是崩溃,让人郁闷) 第一步:先启动hadoop守护进...

  • Hadoop Namenode不能启动 dfs/name is in an inconsistent

    日期:

    前段时间自己的本机上搭的Hadoop环境(按文档的伪分布式),第一天还一切正常,后来发现每次重新开机以后都不能正常启动,在start-dfs.sh之后jps一下发现namenode不能正常启动,按提示找到logs目录下namenode的启动log发现如下异常 org.apache.hadoop.hdfs.s...

  • hadoop-streaming 例子

    日期:

    Hadoop Streaming是Hadoop提供的一个编程工具,它允许用户使用任何可执行文件或者脚本文件作为Mapper和Reducer,例如: 采用shell脚本语言中的一些命令作为mapper和reducer(cat作为mapper,wc作为reducer) 1 2 bin/hadoop jar contrib/streaming/hadoop-0....

  • [Hadoop] Sqoop安装过程详解

    日期:

    Sqoop是一个用来将Hadoop和关系型数据库中的数据相互转移的工具,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。 Sqoop官方版本:http://apache.dataguru.cn/sqoop/1...

  • ubuntu 安装hadoop 伪分布模式

    日期:

    1/首先在官网下载hadoop文件,hadoop-0.23.6.tar.gz 2/系统下要安装jdk 我的系统jdk安装在:JAVA_HOME=/usr/lib/jvm/java-6-oracle 3/解压hadoop-0.23.6.tar.gz文件: 1 tar -xvzf hadoop-0.23.6.tar.gz 给文件设置所有者 1 #chown -R tianbx:tianbx title.tx...