网站后台开发步骤,抖音seo排名软件哪个好,wordpress评论加头像,南充 网站开发这篇文章是笔者阅读《深度学习推荐系统》第五章推荐系统的评估的学习笔记#xff0c;在原文的基础上增加了自己的理解以及内容的补充#xff0c;在未来的日子里会不断完善这篇文章的相关工作。 文章目录 离线评估划分数据集方法客观评价指标P-R曲线ROC/AUCmAPNDCG A/B 测试分… 这篇文章是笔者阅读《深度学习推荐系统》第五章推荐系统的评估的学习笔记在原文的基础上增加了自己的理解以及内容的补充在未来的日子里会不断完善这篇文章的相关工作。 文章目录 离线评估划分数据集方法客观评价指标P-R曲线ROC/AUCmAPNDCG A/B 测试分桶原则评估指标存在的问题 Interleaving缺点灵敏度对比 离线评估 在离线环境中利用已有的数据划分训练集和测试集对模型进行评估 划分数据集方法 机器学习常用划分方法Holdout法、交叉验证、留一法、自助法 客观评价指标 机器学习模型常用指标准确率、精确率、召回率、均方根误差、对数损失 对于推荐模型点击率的预测预测模型正确与否并不是最终目标最重要的是输出一个用户感兴趣的物品列表(排序模型)排序模型是根据模型的输出概率对兴趣物品排序因此应该采用适合评估排序序列的指标来评估模型。
P-R曲线
why work能够更关注正样本的分数 P-R曲线是精确率-查全率曲线精确率和查全率两个指标都是关于正样本的相关计算当阈值设置高时查全率低此时得分越高的物品被优先推荐而不是简单的实现二分类因此P-R曲线更适合排序模型。 参考学习链接
ROC/AUC
why work 因为AUC描述的物理意义是在样本中随机抽取一个正样本和负样本正样本的得分大于负样本得分的概率反映了模型区分正负样本的能力通过ROC的绘制避免了单一阈值达赖的偏差此外AUC对正负样本的比例不敏感因为是随机各抽一个 参考学习链接:【评价指标】ROC曲线与AUC-CSDN博客
mAP
NDCG [!NOTE] 编者提到了在真正的离线实验中并不需要选择过多的评价指标更重要的是快速定位排除不可行的思路。 A/B 测试 又称为“分桶测试”、“分流测试”设置单一变量通过实验组A与对照组B进行对比评估是模型上线前的最后一道测试与离线测试不同离线测试无法消除有偏数据的影响并且无法还原实际工程环境数据丢失、网络延迟 分桶原则 层与层之间正交层与层之间的对照实验时独立的不相互影响 同层之间互斥同一个数据用于不同的实验组 评估指标 与离线测试不同线上测试能够直接计算业务的核心指标因此更注重对点击率、转化率等实际业务之表的对比。 存在的问题
A/B测试占用了过多的资源当新提出的模型推荐效果差时还会对用户造成损害分组用户样本分布不平衡
Interleaving Interleaving是一种快速线上评估方法在大量初始算法中筛选出work的算法再进行A/B测试解决A/B测试在测试时样本可能分布不平衡的问题对相同用户给与两种方案看用户更喜欢哪种类似于chatgpt有时会给两种方案看用户更喜欢哪种 缺点
需要大量的辅助性数据标识只能对算法的相对评估
灵敏度对比 需要多少样本才可以评估不同算法的优劣性图中可以看出 Interleaving 方法利用 1 0 3 10^3 103个样本就能判定算法 A是否比 B 好而 A/B 测试则需要 1 0 5 10^5 105个样本才能将 p-value 降到 5%以下。这就意味着利用一组 A/B 测试的资源可以做 100 组 Interleaving 实验这无疑极大地加强了线上测试的能力。