维基百科(http://wikipedia.org)众所周知的在线百科全书,它的内容可以被用户编辑和维护。到2010年5月它的报导,仅仅用英语写的文章超过了3.2M。估计Freebase Wikipedia Extraction项目(http://download.freebase.com/wex/)的大小,仅仅英语文章超过4.2GB。作为web站点,维基百科的文章可以使用和被连接到另外的文章里面。有这么一篇文章,它里面有很多形同兴趣的文章连接。我们将认为这些文章为“users”,和文章的引用作为“items”,文章的来源为“likes”
幸运的,我们不在需要下载freebase百科的目录摘要和列出所有的连接。研究员亨利.哈塞格洛芙已经提前出所以文章和出版信息,位于http://users.on.net/~henry/home/wikipedia.htm.这将有利于过滤出连接的附件资源,例如文章的讨论页,图片,等等。这些数据集合也可以根据数字id描述出文章,取代标题。这些更有帮助,针对Mahout研究所有的users和items使用数字id。
在继续之前,下载和提取links-simple-sorted.zip
6.1.1分析数据集合
分享到:
相关推荐
网上流传的Mahout In Action一般为前13章,本文为完整版,比较难得
该资源是mahout in action 中的源码,适用于自学,可在github下载:https://github.com/tdunning/MiA
mahout in action英文正版电子书,书中附带多个基于mahout的推荐系统源码,是一本学习推荐系统,上手推荐系统的圣经!
9 ■ Clustering algorithms in Mahout 145 10 ■ Evaluating and improving clustering quality 184 11 ■ Taking clustering to production 198 12 ■ Real-world applications of clustering 210 Licensed to ...
一些支持 Map-Reduce 的集群实现包括 k-Means、模糊 k-Means、Canopy、Dirichlet 和 Mean-Shift。 Distributed Naive Bayes 和 Complementary Naive Bayes 分类实现。
Mahout In Action 清晰完整版 聚类分析、算法推荐
mahout is a library for data mining / machine learning using Hadoop technologies.
Mahout In Action 2012.pdf 配套源代码 Mahout In Action 2012 Source Code 原书 Mahout In Action 2012 版本 源代码。 帮助理解推荐系统的常用算法,分布式信息挖掘技术。
mahout in action中的example codes进行maven编译时由于maven相关jar包的URL的重定位,故无法进行有效编译,需要下载相关jar包进行手动加载!
Mahout in action 实战中文版 高清 完整,,最经典的hadoop机器学习库
Mahout in action 中文版,简介,快速入门
Mahout in Action 3. Representing data 4. Making recommendations 5. Taking recommenders to production 6. Distributing recommendation computations Part 2 Clustering 7. Introduction to clustering 8. ...
Mahout in Action 2012年新版
mahout in action 目前最全的版本
很不容易找到的Mahout in Action 完整版,而且是2012版的
mahout in action 第一章 第二章 第三章第四章 第六章第七章 第九章
Apache开源数据挖掘、机器学习项目,java库,学习推荐系统最好的资料,