`
奔跑的羚羊
  • 浏览: 569494 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

【译】mahout in action 6.1从维基百科统计分析大量的数据

阅读更多
维基百科(http://wikipedia.org)众所周知的在线百科全书,它的内容可以被用户编辑和维护。到2010年5月它的报导,仅仅用英语写的文章超过了3.2M。估计Freebase Wikipedia Extraction项目(http://download.freebase.com/wex/)的大小,仅仅英语文章超过4.2GB。作为web站点,维基百科的文章可以使用和被连接到另外的文章里面。有这么一篇文章,它里面有很多形同兴趣的文章连接。我们将认为这些文章为“users”,和文章的引用作为“items”,文章的来源为“likes”

幸运的,我们不在需要下载freebase百科的目录摘要和列出所有的连接。研究员亨利.哈塞格洛芙已经提前出所以文章和出版信息,位于http://users.on.net/~henry/home/wikipedia.htm.这将有利于过滤出连接的附件资源,例如文章的讨论页,图片,等等。这些数据集合也可以根据数字id描述出文章,取代标题。这些更有帮助,针对Mahout研究所有的users和items使用数字id。

在继续之前,下载和提取links-simple-sorted.zip

6.1.1分析数据集合

分享到:
评论

相关推荐

Global site tag (gtag.js) - Google Analytics