• Mahout 协同过滤 itemBase RecommenderJob源码分析

    日期:

    Mahout支持2种 M/R 的jobs实现itemBase的协同过滤 I.ItemSimilarityJob II.RecommenderJob 下面我们对RecommenderJob进行分析,版本是mahout-distribution-0.7 源码包位置:org.apache.mahout.cf.taste.hadoop.item.RecommenderJob RecommenderJob前几个阶段...

  • hadoop mahout 算法和API说明

    日期:

    org.apache.mahout.cf.taste.hadoop.item.RecommenderJob.main(args) --input 偏好数据路径,文本文件。格式 userid\t itemid\t preference --output 推荐结果路径 -- numRecommendations 推荐个数 --usersFile 需要做出推荐的user,默认全部做推荐 --itemsF...

  • Maven进行Mahout编程,使其兼容Hadoop2.2.0环境运行 (转)

    日期:

    http://blog.csdn.net/u010967382/article/details/39209329 http://blog.csdn.net/fansy1990/article/details/23261633 先编译mahout源码让其支持hadoop2 再把本地仓储repository里的jar包替换成编译后的jar包 修改后的源码包(http://download.csdn.net/de...

  • hadoop Mahout中相似度计算方法介绍(转)

    日期:

    相似距离(距离越小值越大) 优点 缺点 取值范围 PearsonCorrelation 类似于计算两个矩阵的协方差 不受用户评分偏高 或者偏低习惯影响的影响 1. 如果两个item相似个数小于2时 无法计算相似距离. [可以使用item相似个数门限来解决.] 没有考虑两个用户之间的交集...

  • mahout基于Hadoop的CF代码分析(转)

    日期:

    来自:http://www.codesky.net/article/201206/171862.html mahout的taste框架是协同过滤算法的实现。它支持DataModel,如文件、数据库、NoSQL存储等,也支持Hadoop的MapReduce。这里主要分析的基于MR的实现。 基于MR的CF实现主要流程就在 org.apache.mahout...

  • Five Steps to Avoiding Java Heap Space Errors

    日期:

    来自:https://www.mapr.com/blog/how-to-avoid-java-heap-space-errors-understanding-and-managing-task-attempt-memory#.VMWvNDGUfXY Keeping these five steps in mind can save you a lot of headaches and avoid Java heap space errors. Calculate me...

  • JBOSS 集群配置

    日期:

    1.前言 2006年,Jboss公司被Redhat公司收购了。这直接导致Jboss产品结构调整,并将以前收费的Jboss AS文档改为免费。jijian91本次集群试验的最初依据就是由此得到的Jboss 4.0.5集群配置文档。 但这份官方文档并不可靠,在一些关键配置上含混不清,而且夹杂了很...

  • Haproxy 1.5.12 正式发布,Web 负载均衡

    日期:

    Haproxy 1.5.12 正式发布,此版本修复了一些 bugs,其中两个会因为一些特定的配置而发生崩溃。还有一些关于 RFC7230 方面的 bug 修复。此版本禁用了日志记录,响应 400/408 和空白连接错误计数器。其他改进: - BUG/MINOR: ssl: Display correct filename in...

  • HAProxy+Hive构建高可用数据挖掘集群

    日期:

    Hive是facebook开源的一个非常伟大的工具,可以将hadoop中的数据用sql方式进行查询,比自己写map/reduce程序要方便很多。但是在实际使用中发现hive其实不够稳定,极少数情况会出现端口不响应或者进程丢失的问题,所以考虑将hive做成负载均衡的方式。或者更严...

  • python加shell快速部署集群

    日期:

    最近痛感在集群里逐台部署ganglia, cacti这些监控的东西很麻烦,就写了个小程序去批量自动部署。原理是通过python的pexpect用ssh去复制文件和执行系统命令,我用它来部署ganglia等,但是其他的东西也可以通过这个脚本来批量部署,只要自己编写部署脚本就可以...