Spark 高级分析:第三章第6,7节
本帖最后由 feilong 于 2017-12-15 21:37 编辑问题导读
1.如何评估推荐质量?
2.评估模型时是否会将数据集作为一个整体作为输入?
3.什么是AUC?如何计算?
http://www.aboutyun.com/static/image/hrline/4.gif
上一篇:Spark 高级分析:第三章第4,5节
http://www.aboutyun.com/forum.php?mod=viewthread&tid=23482&extra=
6. 评估推荐质量
有理由假定用户倾向于播放有吸引力的艺术家的歌曲,而不是播放那些没有吸引力的艺术家的歌曲。因此,用户的播放给出了什么是“好”的推荐和“坏”的推荐。这是一个不确定的假设,但是是没有其他数据可以做的最好的假设。例如,假设用户2093760喜欢的比上面列出的五个艺术家还要多,而且是在其他170万个没有播放的艺术家中,有一些是感兴趣的,并不是所有的都是“坏”的推荐。
为了使这一点有意义,一些艺术家的播放数据可以被搁置并隐藏在ALS模型构建过程中。然后,这个数据可以被解释为对每个用户的“好”推荐集合,但是推荐者还没有被给出。推荐者被要求对模型中的所有项目进行排名,并对被调查的艺术家的排名进行检查。理想情况下,推荐者将它们全部放在列表的顶部或附近。
这个度量直接关系到信息检索的概念,即接收者操作特征(ROC)曲线。上面的度量等于ROC曲线下的面积,也就是曲线下面积AUC。AUC可以被看作是随机选择的“好”艺术家高于随机选择的“坏”艺术家的概率。
其他系统级相关的评价指标是在RankingMetrics中实现的。这些指标包括精度、召回率和平均准确率(MAP)。MAP也会经常用到,而且更侧重于顶层推荐的质量。然而,AUC在这里将作为整个模型输出质量的一个常用且广泛的度量方法。
事实上,在机器学习的过程中,经常要保存一些数据来选择模型并评估其准确性。通常,数据被分为三个子集:训练集、交叉验证(CV)和测试集。为简单起见,在最初的示例中,只使用两组:训练集和CV。这就足够选择一个模型了。在下一章中,这个想法将被扩展到包含测试集。
7. 计算AUC
本手册附带的源代码中提供了AUC的实现。它很复杂所以没有在这里复制,但是在源代码中的注释中有详细的解释。它接收CV集作为每个用户的“积极”或“优秀”的艺术家,以及一个预测功能。这个函数将每个用户艺术家的组合转换成一个包含用户、艺术家和一个数字的预测,其中值越大意味着建议级别越高。
为了使用它,输入数据必须被分割成一个训练集和CV集。ALS模型只在训练集上进行训练,而CV集用于评估模型。在这里,90%的数据用于训练,剩下的10%用于交叉验证:
def areaUnderCurve(
positiveData: RDD,
bAllItemIDs: Broadcast],
predictFunction: (RDD[(Int,Int)] => RDD)) = {
...
}
val allData = buildRatings(rawUserArtistData, bArtistAlias)
]val Array(trainData, cvData) = allData.randomSplit(Array(0.9, 0.1))
trainData.cache()
cvData.cache()
val allItemIDs = allData.map(_.product).distinct().collect()
val bAllItemIDs = sc.broadcast(allItemIDs)
val model = ALS.trainImplicit(trainData, 10, 5, 0.01, 1.0)
val auc = areaUnderCurve(cvData, bAllItemIDs, model.predict)
注意,areaUnderCurve()接受函数作为其第三个参数。这里predict()方法从MatrixFactorizationModel被传入,但很快就会换出另一种方法。
结果是0.96。这是好的吗?它肯定比随机推荐的0.5要高。它接近1.0,这是最大可能的分数。一般来说,AUC超过0.9将被认为是高的。
这种评价可以反复用不同的90%作为训练集,所得的AUC值的平均值可能是对算法在数据集上性能的更好估计。事实上,一个常见的做法是将数据划分为k大小相似的子集,利用k - 1子集在一起训练,并评估剩余子集。这可以重复k次,每次使用不同的子集。这被称为k -折叠交叉验证。为了简单起见,这里的示例将不会实现这一点。
用更简单的方法来衡量这一点是很有帮助的。例如,考虑向每个用户推荐全球最受欢迎的艺术家。这不是个性化的,但很简单,而且可能很有效。定义这个简单的预测函数并评估其AUC分数:
def predictMostListened(
sc: SparkContext,
train: RDD)(allData: RDD[(Int,Int)]) = {
val bListenCount = sc.broadcast(
train.map(r => (r.product, r.rating)).
reduceByKey(_ + _).collectAsMap()
)
allData.map { case (user, product) =>
Rating(
user,
product,
bListenCount.value.getOrElse(product, 0.0)
)
}
}
val auc = areaUnderCurve(
cvData, bAllItemIDs, predictMostListened(sc, trainData))
这是Scala语法的另一个有趣的示范,在这里,函数似乎被定义为包含两个参数列表。调用函数并提供前两个参数创建一个局部应用函数,它本身需要一个参数(allData)来返回预测。结果predictMostListened(sc,trainData)是一个函数。
结果是0.93。这表明非个性化的建议已经相当有效。很高兴看到,到目前为止构建的模型打败了这种简单的方法。但能做得更好吗?
页:
[1]