刷短视频时总被推一堆不感兴趣的,淘宝首页老是显示买过的同款,音乐App天天重复播放那几首——你有没有怀疑过:这推荐系统是不是不太灵?其实不是算法偷懒,而是背后有一套“打分规则”,叫推荐算法评估指标。
准确率(Precision):推得对不对?
比如你搜“轻量级笔记本”,平台给你推了10款,其中7款真符合需求(重量<1.5kg、续航>8小时),那准确率就是7/10=70%。它盯的是“推荐列表里有多少是真的好”。日常用处很明显:精准度高,你就少划十几页才找到想要的。
召回率(Recall):漏没漏好东西?
假设全网有20款真正适合你的轻薄本,但平台只推了7款出来,那召回率就是7/20=35%。它关心的是“所有好东西里,你看到了几个”。召回低,容易错过宝藏,比如你一直没发现那台口碑爆棚的XPS 13。
F1值:准确和召回的平衡杆
单看一个容易偏科,F1值把两者揉在一起算个综合分:
F1 = 2 * (Precision * Recall) / (Precision + Recall)就像买菜——既要挑得准(别把西兰花当花椰菜),又不能漏掉摊上最新鲜的那把(召回)。F1高,说明推荐既靠谱又全面。MAP(平均准确率均值):考虑排序位置
人不会从第10页开始翻,所以排在前面的更关键。比如你搜“降噪耳机”,平台推了5款:第1款合适(准确率1/1=100%),第2款不合适,第3款合适(前3里共2个对,准确率2/3≈67%)……再算平均,就是MAP。它能揪出那种“堆一堆好货但全塞在后面”的假勤奋推荐。
实际怎么用?举个真例子
你常在豆瓣标记“想看”电影,系统据此推荐新片。如果每次推荐10部,但你只点开1部、收藏2部、最终看了0部——那它的准确率可能只有10%,召回也惨淡。这时候别急着骂算法,先看看它用的是不是老数据(比如你半年前爱看悬疑,现在专追纪录片),或者压根没用上你的“最近标记”行为。这些细节,都藏在评估指标背后。
上网时多留个心眼:不是所有“猜你喜欢”都用心了,但真正靠谱的推荐,一定经得起这几个数字的检验。