优质机器学习面试必备:深入理解与掌握各类评价指标
要搭建好的推荐系统,就得先了解评价指标。不同指标有各自特点和用途,它们之间有区别也有联系,我们一起来看看。
F1 - score指标
推荐系统里F1 - score定义与通用定义一样以precision和recall为基础。但这里precision和recall含义有所不同。比如在电商推荐中,precision可能指推荐商品里用户真正感兴趣的比例,而recall可能指用户感兴趣商品被推荐出来的比例。精准衡量推荐准确性时,它是关键指标。
在音乐推荐场景里,计算F1 - score能清晰知道推荐系统的效果。高F1 - score意味着推荐既准又全,更能满足用户需求。
ROC曲线及相关指标
ROC曲线展示了FPR与TPR的关系,也就是代价与收益的关系。x轴的FPR指在所有负样本中分类器预测错误的比例。比如在垃圾邮件识别中,负样本就是正常邮件,FPR体现把正常邮件误判为垃圾邮件的概率。
y轴的TPR等于Recall,指在正样本中分类器预测正确的比例。对于疾病诊断系统,正样本是患病者,TPR就是正确诊断出患病者的比例。AUC值是ROC曲线下面积,AUC越大分类器效果越好。
CG指标
CG即累积增益,只考虑相关性不考虑位置。在推荐系统中,用公式判断第i个位置的item是否是用户喜欢的。若用于新闻推荐,就是看推荐列表里用户感兴趣的新闻数量。
CG只能反映总体情况,判断页面中推荐item总分好坏。然而它没考虑不同用户需求和item位置,对单个用户精准评估不足。
由于CG和DCG只能单纯求和,无法对比不同用户,所以有了NDCG。NDCG能进行标准化,在电商推荐里,可评估不同用户对推荐商品的反馈差异。

好比不同购物习惯的用户,有的喜欢第一页商品,有的则翻很多页。NDCG考虑这些因素后,能更客观评价推荐系统。

HR、MRR、MAP指标
HR命中率反映推荐序列是否包含用户真正点击的item。以视频推荐为例,N次推荐中,用户点击的视频在推荐序列中的次数比例就是HR。

MRR平均倒数排名强调位置关系。如搜索结果推荐,用户真实访问的网页在推荐列表越靠前,MRR值越高。MAP平均精度均值应用广泛,结合多次推荐计算AP后取平均,能综合评价推荐系统性能。

A/B test和LogLoss
A/B test把用户分为A、B两组,A组接受新推荐算法的商品推荐,B组接受基线方法推荐的商品。在APP端新算法上线时,用A/B test能对比新旧算法效果,选择更优方案。
LogLoss是训练模型的损失函数,可对比模型训练效果。如在预测用户购买行为模型中,通过比较不同模型的LogLoss,能选出预测更准的模型。
你在使用推荐系统时有注意过这些评价指标带来的影响吗?快点赞分享,在评论区说说你的看法!










































