• Mahout 协同过滤 itemBase RecommenderJob源码分析

    日期:

    Mahout支持2种 M/R 的jobs实现itemBase的协同过滤 I.ItemSimilarityJob II.RecommenderJob 下面我们对RecommenderJob进行分析,版本是mahout-distribution-0.7 源码包位置:org.apache.mahout.cf.taste.hadoop.item.RecommenderJob RecommenderJob前几个阶段...

  • hadoop mahout 算法和API说明

    日期:

    org.apache.mahout.cf.taste.hadoop.item.RecommenderJob.main(args) --input 偏好数据路径,文本文件。格式 userid\t itemid\t preference --output 推荐结果路径 -- numRecommendations 推荐个数 --usersFile 需要做出推荐的user,默认全部做推荐 --itemsF...

  • Maven进行Mahout编程,使其兼容Hadoop2.2.0环境运行 (转)

    日期:

    http://blog.csdn.net/u010967382/article/details/39209329 http://blog.csdn.net/fansy1990/article/details/23261633 先编译mahout源码让其支持hadoop2 再把本地仓储repository里的jar包替换成编译后的jar包 修改后的源码包(http://download.csdn.net/de...

  • hadoop Mahout中相似度计算方法介绍(转)

    日期:

    相似距离(距离越小值越大) 优点 缺点 取值范围 PearsonCorrelation 类似于计算两个矩阵的协方差 不受用户评分偏高 或者偏低习惯影响的影响 1. 如果两个item相似个数小于2时 无法计算相似距离. [可以使用item相似个数门限来解决.] 没有考虑两个用户之间的交集...

  • mahout基于Hadoop的CF代码分析(转)

    日期:

    来自:http://www.codesky.net/article/201206/171862.html mahout的taste框架是协同过滤算法的实现。它支持DataModel,如文件、数据库、NoSQL存储等,也支持Hadoop的MapReduce。这里主要分析的基于MR的实现。 基于MR的CF实现主要流程就在 org.apache.mahout...

  • Five Steps to Avoiding Java Heap Space Errors

    日期:

    来自:https://www.mapr.com/blog/how-to-avoid-java-heap-space-errors-understanding-and-managing-task-attempt-memory#.VMWvNDGUfXY Keeping these five steps in mind can save you a lot of headaches and avoid Java heap space errors. Calculate me...

  • 后Hadoop时代的大数据架构

    日期:

    提到大数据分析平台,不得不说Hadoop系统,Hadoop到现在也超过10年的历史了,很多东西发生了变化,版本也从0.x 进化到目前的2.6版本。我把2012年后定义成后Hadoop平台时代,这不是说不用Hadoop,而是像NoSQL (Not Only SQL)那样,有其他的选型补充。我在知...

  • hadoop2.5.1环境安装配置

    日期:

    自学hadoop也有一段时间了。这里介绍一下hadoop实验环境的安装配置,给需要学习hadoop的朋友提供参考,也方便以后自己查阅。 这里只是梳理大概的步骤,细节的东西还需要自己多查资料。 1、准备工作 安装好VMware。并且在虚拟机上安装好一个linux系统。我的实...

  • CentOS下Hadoop2.x伪分布环境搭建

    日期:

    一、环境准备 1) 软件 * CentOS 6.4 64位 * Hadoop2.2.0 * Jdk 1.6+ * Meven3.0.0 2) 修改主机名 * vim /etc/sysconfig/network NETWORKING=yes HOSTNAME=hadoop 主机名自己设置(在后面配置好DNS映射就好) 3) 修改IP地址(设置为静态的) * vim /etc/sysconfig/...

  • EasyHadoop logoHadoop快速部署工具 EasyHadoop

    日期:

    EasyHadoop 是一个Hadoop一键安装系统,方便大家更容易安装部署Hadoop软件。 EasyHadoop 由前暴风影音数据团队修湘调研,向磊编写,以GPL协议进行开源 开放此管理部署系统方便大家安装使用,以此和行业共同学习进步。 支持特性如下: 1.Haoop 稳定版本 hadoop-1....