Spark 高级分析:第三章第1节
本帖最后由 feilong 于 2017-11-17 09:47 编辑问题导读
1.推荐引擎是什么?
2.推荐引擎一般用来做什么?有什么样的实例?
3.什么样的数据是隐式反馈数据?
static/image/hrline/4.gif
上一篇:Spark 高级分析:第二章第11,12节
http://www.aboutyun.com/forum.php?mod=viewthread&tid=23298&page=1#pid244904
第三章 音乐推荐&Audioscrobbler数据集
当有人问我以什么为生时,“数据科学”或“机器学习”的直接回答听起来令人印象深刻,但通常都是空白回答。值得注意的是,即使是实际的数据科学家也很难定义这些意味着什么——存储大量数据、计算和预测某些东西。不可避免地,我直接跳到一个真实的例子:“好吧,你知道亚马逊会如何推荐给你你买的书吗?是吗?对!就是这样。”
推荐者的输出比其他机器学习算法更直观易懂。这是令人兴奋的。我们认为音乐品味是个人化的和无法解释的,推荐系统做了一个非常好的工作,识别出我们不知道但是我们会喜欢的音乐。
因此,它似乎适合揭开之后的三章的序幕,接下来将探讨Spark关键机器学习算法,一章围绕的推荐引擎,尤其是推荐音乐。实际使用Spark MLlib是一个易于获取的方式,一些基本的机器学习的想法将在以后的章节介绍。
第1节数据集
这个例子将使用 Audioscrobbler 公开的数据集。Audioscrobbler是last.fm 第一个音乐推荐系统, 是第一个网络流媒体音频网站,成立于2002年。Audioscrobbler 为 “scrobbling” 提供了一个开发的 API,主要记录听众听取了哪些作家的歌曲。这个网站利用这些信息建立了一个强大的音乐推荐系统。这个系统达到了数百万用户,因为第三方的App和网站可以提供收听数据给推荐引擎。
在那个时期,研究推荐系统大部分局限在学习类似评级的数据集。也就是说,推荐的人往往使用需要输入像 “某某某 评分3.5分” 这样的工具。
Audioscrobbler 数据集有趣地方在于仅仅记录播放的历史:“某某某 播放了 什么”。一个播放记录带来的信息量远远小于一个评分数据带来的信息量,但是评分数据总量肯定没有播放历史记录的数据多,当大量播放历史记录放在一起的时候,比评分数据将更有价值。
然而,听众对音乐的评价要比演奏音乐的频率低得多。因此,这样的数据集要大得多,覆盖了更多的用户和艺术家,并且包含了比评级数据集更多的信息,即使每个单独的数据点携带的信息更少。这种类型的数据通常被称为隐式反馈数据,因为用户-艺术家连接被暗示为其他行动的副作用,而不是作为明确的评级或点赞。
由这个网站公布的一个2005年的数据集合可以在http://www-etud.iro.umontreal.ca/~bergstrj/audioscrobbler_data.html上面下载。这个数据集合没有解压之前大小是 135MB,解压之后是 500MB,解压之后将会看到主要的数据集是 user_artist_data.txt 文件,里面大约包含 141000 唯一的用户和 1.6 百万唯一的artist艺术家,大约 24.2 百万用户播放记录。
当然每个 artist 都是用 id 记录的,id与名字的对照关系是在 artist_data.txt 中。注意同一个 artist 可能对应很多不同名字即有不同的 id。所以这里还有一个文件 artist_alias.txt 标识每个 artist 的别名。里面用一个唯一的id 标识所有同一个artist id 列表。
数据没有了 来学习了,感谢分享!
页:
[1]