问题导读
1. 推荐系统常用的数据集有哪些?
2. 这些数据集的内容是什么?
3. 这些数据集相互之间的对比?
关注最新经典文章,欢迎关注公众号
综述
优秀的狙击手,都是子弹喂出来的。好的推荐算法,无论设计的如何优秀或精妙,都需要数据集来训练、验证。
本文整理了常用的一些开源数据集。每个数据集后面都附了相关链接。
当然,为了方便大家下载,也将movie,jester,last.fm 等数据集整合在了百度网盘中,老铁们,回复即可得哟。
MovieLens
MovieLens数据集由GroupLens研究组在 University of Minnesota — 明尼苏达大学中组织的。 MovieLens是电影评分的集合,有各种大小。 数据集命名为1M,10M和20M,是因为它们包含1百万,1千万和2千万个评分。 最大的数据集使用约14万用户的数据,并覆盖27,000部电影。 除了评分之外,MovieLens数据还包含类似“Western”的流派信息和用户应用的标签,如“over the top”和“Arnold Schwarzenegger”。 这些流派标记和标签在构建内容向量方面是有用的。内容向量对项目的信息进行编码,例如颜色,形状,流派或真正的任何其他属性 - 可以是用于基于内容的推荐算法的任何形式。
MovieLens的数据在过去20年中已经由大学的学生以及互联网上的人们进行收集了。 MovieLens有一个网站,您可以注册,贡献自己的评分,并接收由GroupLens组实施的几个推荐者算法这里之一的推荐内容。
链接
新算法研究建议使用的数据集
MovieLens 20M Dataset
稳定的基准数据集。138,000个用户对27,000部电影作出的2千万个评分,和打上的465,000个标签。
包括通过1,100个标签打出的1200万个相关得分。
下载链接:ml-20m.zip
教学和开发建议使用的数据集
MovieLens Latest Datasets
不断更新的最新数据集,但不会根据此数据集给出任何研究说明和报告。
小集合: 700个用户对 9,000部电影作出的100,000 个评分和打上的1,300个标签。最近一次更新时间为 10/2016。
下载链接: ml-latest-small.zip
全集: 270,000个用户对45,000部电影作出的26,000,000个评分和750,000个标签。包括和1,100个标签相关的1200万标签基因数据。最近一次更新时间为8/2017。
下载链接:ml-latest.zip
旧数据集
MovieLens 100K Dataset
稳定的基准数据集,1000个用户对1700部电影作出的100,000个评分。发布于4/1998。
下载链接:ml-100k.zip
MovieLens 10M Dataset
稳定的基准数据集,72,000 个用户对10,000部电影作出的1000万个评分和打上的100,000的标签。发布于1/2009。
下载链接:ml-10m.zip
MovieLens Tag Genome Dataset
基于1,100个标签的标签池,为10,000部电影打上的1100万个标签基因数据。发布于3/2014。
也可以考虑使用MovieLens 20M 或 latest datasets
下载链接: tag-genome.zip
Jester
当你让一批学者写一个笑话评分系统,你会得到什么?Jester! Jester是由Ken Goldberg和他在加州大学伯克利分校的小组发展的,包含150个笑话大约600万的评分。 像MovieLens一样,Jester评分由互联网上的用户提供。 你可以在这里贡献你自己的评分。
与我们使用的其他数据集相比,Jester有两个方面是特殊的:它使用-10到10的连续等级,并且在量级上具有最高的评分密度。评分密度的意思是大概“平均每个用户评价多少个项目”?如果每个用户都对每个项目进行了评分,那么评级密度将为100%。 如果没有人评价过任何东西,那将是0%。 Jester的密度约为30%,这意味着一个用户平均对30%的笑话进行了评分。 作为比较,MovieLens 1M的密度为4.6%(其他数据集的密度低于1%)。当然不是那么简单。 不是每个用户都评价相同数量的项目。 相反,一些用户对许多项目进行评分,大多数用户只评价一些。 这可以在以下直方图中看到
链接
Jester 一共包含三个数据集,下面一一介绍。
Dataset1
73,421个用户 对 100条笑话的超过410万条的连续等级打分(从-10 到 10)。在4/1999 - 5/2003 时间段内收集。
下载链接: jester_dataset_1_1.zip
数据来自24,983位用户的打分结果,这些用户评价了超过36条笑话。
下载链接: jester_dataset_1_2.zip
数据来自23,500位用户的打分结果,这些用户评价了超过36条笑话。
下载链接:jester_dataset_1_3.zip
数据来自24,938位用户的打分结果,这些用户评价的笑话条数在15-35之间。
笑话文本
下载链接:jester_dataset_1_joke_texts.zip
Dataset2
59,132个用户 对 150条笑话的超过170万条的连续等级打分(从-10 到 10)。在11/2006 - 5/2009 时间段内收集。
下载链接:jester_dataset_2.zip
Dataset2+
Dataset2 的一个更新,79,681个用户的500,000条新打分。在11/2006 - 11/2012 时间段内收集。
下载链接:jester_dataset_2+.zip
Book-Crossings
Book-Crossings是由Cai-Nicolas Ziegler根据bookcrossing.com的数据编写的图书评分数据集。 它包含278,858个用户的271,379本书的1,149,780个评分。评分范围从1到10,还包括隐性评分。
Book-Crossings数据集是最不密集的数据集之一,也是具有明确评分的最不密集的数据集。
链接
Last.fm
Last.fm提供音乐推荐的数据集。 对于数据集中的每个用户,包含他们最受欢迎的艺术家的列表以及播放次数。它还包括可用于构建内容向量的用户应用标签。
Last.fm的数据聚合aggregated后,有些信息(关于特定的歌曲,或某人正在听音乐的时间)会丢失。 然而,它是这些样本中唯一具有用户的社交网络的信息的数据集。
此数据在 HetRec2011(2nd International Workshop on Information Heterogeneity and Fusion in Recommender Systems ) 上发布。有1892名用户的听听歌记录,涉及92,800名艺术家。
链接
下载地址:链接: https://pan.baidu.com/s/1DLm5KpBqIZFNJZMlMYreAA 提取码: fnms
Wikipedia
维基百科是其用户撰写的协作百科全书。维基百科除了为最后一刻拼写学期论文的学生提供信息外,还为每个用户提供每篇文章的每个编辑的数据转储。该数据集已广泛用于社交网络分析,图形和数据库实现测试,以及维基百科用户行为研究。还可以将用户采取的编辑操作,作为隐性评分,表明他们因某些原因关心该页面,并允许我们使用数据集来提出推荐。
由于维基百科不是为了提供推荐者数据集而设计的,所以它确实存在一些挑战。其中一个是从页面中提取有意义的内容向量,但是幸运的是,大多数页面被很好地分类,为每个页面提供了一种类型。构建维基百科的内容向量的挑战与现实世界数据集的推荐面临的挑战相似。所以我们认为这是建立一些这样做的专门知识的好机会。
链接
OpenStreetMap
OpenStreetMap是一个协作的地图项目,类似于维基百科。 像维基百科一样,OpenStreetMap的数据由用户提供,整个编辑历史的完整转储也是可用的。 数据集中的对象包括道路,建筑物,兴趣点,以及您可能在地图上找到的任何其他内容。 这些对象由键值对标识,因此可以从中创建一个基本的内容向量。 然而,键值对是自由的,所以选择正确的设置是一个挑战。 一些键值对由编辑软件(例如“highway =住宅”)进行标准化和相同的使用,但通常它们可以是用户决定进入的任何内容 - 例如“FixMe !! = Exact location unknown”。
链接
总结
以上,就是推荐系统常用的数据集介绍,并附上LAB41 对各个数据集的总结。
|
|