推荐算法评估指标详解｜准确率、召回率、F1值、MAP怎么看

刷短视频时总被推一堆不感兴趣的，淘宝首页老是显示买过的同款，音乐App天天重复播放那几首——你有没有怀疑过：这推荐系统是不是不太灵？其实不是算法偷懒，而是背后有一套“打分规则”，叫推荐算法评估指标。

准确率（Precision）：推得对不对？

比如你搜“轻量级笔记本”，平台给你推了10款，其中7款真符合需求（重量＜1.5kg、续航＞8小时），那准确率就是7/10＝70%。它盯的是“推荐列表里有多少是真的好”。日常用处很明显：精准度高，你就少划十几页才找到想要的。

召回率（Recall）：漏没漏好东西？

假设全网有20款真正适合你的轻薄本，但平台只推了7款出来，那召回率就是7/20＝35%。它关心的是“所有好东西里，你看到了几个”。召回低，容易错过宝藏，比如你一直没发现那台口碑爆棚的XPS 13。

F1值：准确和召回的平衡杆

单看一个容易偏科，F1值把两者揉在一起算个综合分：

F1 = 2 * (Precision * Recall) / (Precision + Recall)

就像买菜——既要挑得准（别把西兰花当花椰菜），又不能漏掉摊上最新鲜的那把（召回）。F1高，说明推荐既靠谱又全面。

MAP（平均准确率均值）：考虑排序位置

人不会从第10页开始翻，所以排在前面的更关键。比如你搜“降噪耳机”，平台推了5款：第1款合适（准确率1/1=100%），第2款不合适，第3款合适（前3里共2个对，准确率2/3≈67%）……再算平均，就是MAP。它能揪出那种“堆一堆好货但全塞在后面”的假勤奋推荐。

实际怎么用？举个真例子

你常在豆瓣标记“想看”电影，系统据此推荐新片。如果每次推荐10部，但你只点开1部、收藏2部、最终看了0部——那它的准确率可能只有10%，召回也惨淡。这时候别急着骂算法，先看看它用的是不是老数据（比如你半年前爱看悬疑，现在专追纪录片），或者压根没用上你的“最近标记”行为。这些细节，都藏在评估指标背后。

上网时多留个心眼：不是所有“猜你喜欢”都用心了，但真正靠谱的推荐，一定经得起这几个数字的检验。

推荐算法好不好？这几个评估指标一看就懂

准确率（Precision）：推得对不对？

召回率（Recall）：漏没漏好东西？

F1值：准确和召回的平衡杆

MAP（平均准确率均值）：考虑排序位置

实际怎么用？举个真例子