经验首页 前端设计 程序设计 Java相关 移动开发 数据库/运维 软件/图像 大数据/云计算 其他经验
当前位置:技术经验 » 大数据/云/AI » Hadoop » 查看文章
大数据之路【第十四篇】:数据挖掘--推荐算法(Mahout工具)
来源:cnblogs  作者:Simon92  时间:2019/9/10 10:27:43  对本文有异议

数据挖掘---推荐算法(Mahout工具)

一、简介

  • Apache顶级项目(2010.4)
  • Hadoop上的开源机器学习库
  • 可伸缩扩展的
  • Java库
  • 推荐引擎(协同过滤)、聚类和分类

 

二、机器学习介绍

  • 通常问题都归为这几类问题
  • 分类问题
  • 回归问题
  • 聚类问题
  • 推荐问题

三、安装方法

3.1 下载Mahout

  1. wget http://archive.apache.org/dist/mahout/0.9/mahout-distribution-0.9.tar.gz

3.2 解压

  1. tar -zxvf mahout-distribution-0.9.tar.gz

四、配置环境变量

4.1 配置mahout环境变量

  1. # set mahout environment
  2. export MAHOUT_HOME=/usr/local/src/mahout-distribution-0.9
  3. export MAHOUT_CONF_DIR=$MAHOUT_HOME/conf
  4. export PATH=$MAHOUT_HOME/conf:$MAHOUT_HOME/bin:$PATH

4.2 配置Mahout所需的Hadoop环境变量

  1. # set hadoop environment
  2. export HADOOP_HOME=/usr/local/src/hadoop-1.2.1
  3. export HADOOP_CONF_DIR=$HADOOP_HOME/conf
  4. export PATH=$PATH:$HADOOP_HOME/bin
  5. export HADOOP_HOME_WARN_SUPPRESS=not_null

五、验证是否成功

直接执行mahout命令

支持算法列表

六、准备数据

  1. 数据格式:
  2. 1,100001,5
  3. 1,100002,3
  4. 1,100003,4
  5. 1,100004,3
  6. 1,100005,3
  7. 1,100007,4
  8. 1,100008,1
  9. 1,100009,5
  10. 1,1000011,2

七、训练

  1. INPUT="/movie_lens.data"
  2. TMP_DIR="/mahout_temp"
  3. OUTPUT="/cf_mahout_output"
  4. MAHOUT_CMD="/usr/local/src/mahout-distribution-0.9/bin/mahout“
  5. $MAHOUT_CMD itemsimilarity
  6. -i $INPUT
  7. -o $OUTPUT
  8. --maxSimilaritiesPerItem 1000
  9. --threshold 0.0000001
  10. --similarityClassname SIMILARITY_COSINE
  11. --tempDir $TMP_DIR

 

 八、输出结果

 

原文链接:http://www.cnblogs.com/hackerer/p/11480119.html

 友情链接:直通硅谷  点职佳  北美留学生论坛

本站QQ群:前端 618073944 | Java 606181507 | Python 626812652 | C/C++ 612253063 | 微信 634508462 | 苹果 692586424 | C#/.net 182808419 | PHP 305140648 | 运维 608723728

W3xue 的所有内容仅供测试,对任何法律问题及风险不承担任何责任。通过使用本站内容随之而来的风险与本站无关。
关于我们  |  意见建议  |  捐助我们  |  报错有奖  |  广告合作、友情链接(目前9元/月)请联系QQ:27243702 沸活量
皖ICP备17017327号-2 皖公网安备34020702000426号