从0开始学习机器学习--Day21--算法的评估标准

🕗 发布于 2024-11-11 00:31 学习 机器学习 人工智能

准确率和召回率(precision and recall)

在上一章我们提到了在每次运行算法时通过返回一个实数值来判断算法的好坏，但是我们该如何构建这个实数的计算公式呢，毕竟这关乎于我们对算法的判断，不能过于夸大或贬低。有一个典型的会被影响的很大例子叫做偏斜类问题。

假如我们在一个机器学习算法的验证集中得到的错误率是1%，而另一个算法中的错误率是0.5%，那么是不是意味着第二个算法肯定比第一个好呢。实际上，假如我们的训练集中正样本和负样本的比例很极端，我们并不能武断地直接用预测正确率来判断算法好坏。就像我们刚刚说的，第二个算法的逻辑很简单，他总是预测结果是0，即负样本，那么在一个正负样本比例很极端的训练集中，后者有着天然的优势，所以单纯靠预测正确率来判断并不能检验算法的好坏，我们把这种样本集中一类比另一类样本多很多的问题称为偏斜类问题。

在遇到偏斜类问题时，我们一般会用叫做查准率和召回率的数据来判断算法的好坏。 $precision =\frac{true-positives}{all-of-predicted-positives}$ ， $recall=\frac{true-positives}{all-of-actual-positives }$ ，两者都是越高越好，前者代表预测为真的准确率，后者代表预测真数据的效率。

但并不是所有的问题都要用到这两个度量标准，事实上这取决于问题的条件限制。例如，在癌症分类问题中，我们会将概率从0.5改为0.7，即当我们认为该病人有大于等于70%概率得癌症的时候才下判断，毕竟这是一个听起来很恐怖的事情，而在这个时候我们的查准率也会随我们对标准放宽而提高；但如果我们的目的是想要尽量避免漏掉癌症病人，不想要错过最佳的治疗窗口期，那么这个时候就会将概率改为0.3，放低界限，那么类似的我们的召回率就会升高，准确率就会降低。

根据所选概率变化的准确率和召回率

如图，我们可以看到一个横轴为召回率，纵轴为准确率的图像，线上的点代表不同的概率。这就像是一个滑动变阻器，按照不同的环境，通过移动中间的点来选取合适的值。

但仅仅是这样似乎还不够能帮我们判断，为了能考虑到偏斜类问题，我们提出了一个参考值，假设准确率为 $P$ ，召回率为 $R$ ，我们用 $F =2 \frac{PR}{P+R}$ 来判断，这能避免我们忽略召回率的问题。

视频参考：https://www.bilibili.com/video/BV1By4y1J7A5?spm_id_from=333.788.player.switch&vd_source=867b8ecbd62561f6cb9b4a83a368f691&p=68

原文地址：https://blog.csdn.net/Chef_Chen/article/details/143668397

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：【eNSP】企业网络架构实验——vlan间的路由通信（三）
下一篇：PGMP-串串01概述

解决 Spring Boot 中 `Ambiguous mapping. Cannot map ‘xxxController‘ method` 错误
在使用 Spring Boot 开发 Web 应用时，经常会遇到各种各样的错误。其中一种常见的错误是。本文将详细介绍这个错误的原因及解决方法，帮助开发者快速定位并解决问题。解决错误的关键在于确保每个方
阅读更多2024-11-15
数据分析案例-笔记本电脑价格数据可视化分析
本实验数据集来源于Kaggle，原始数据集共有1303条数据，13个变量，各变量含义如下：0 laptop_ID-数字-产品ID1 Company-字符串-笔记本电脑制造商2 Product-字符串-
阅读更多2024-11-15
Linux 如何查看当前系统版本的详细信息？
系统中基本都存在，所以是一种标准的获取系统信息的方式。命令以标准的方式提供详细的发行版信息。发行版的说明文件一般位于。
阅读更多2024-11-15
初级数据结构——栈
数据结构栈（Stack）是一种线性的数据结构，它只允许在序列的一端（称为栈顶）进行插入和删除操作。这种特性使得栈成为许多算法和问题解决中的有力工具。栈是一种简单而强大的数据结构，它遵循后进先出的原则，
阅读更多2024-11-15
网络安全练习之 ctfshow_web
根据前面得到的qq邮箱中的qq号查询用户，目前电脑版的QQ添加好友好像不能查看详细信息，手机版的可以看到对方所在地为陕西西安。路径是：/editor/attached/file/tmp/html/no
阅读更多2024-11-15
Python 三种方式实现自动化任务
本文介绍了用Python实现机器人过程自动化的三个包，方便读者选择、对比学习。
阅读更多2024-11-15
C++基础：Pimpl设计模式的实现
PIMPL （ Private Implementation 或 Pointer to Implementation ）是通过一个私有的成员指针，将指针所指向的类的内部实现数据进行隐藏。
阅读更多2024-11-15
【flutter】flutter2升级到3.
以这个 https://github.com/aa286211636/Flutter_QQ 为例子，升级下看看。只有登录界面能正常显示，别的页面都是报错。flutter这版本变动，基本不能直接ru
阅读更多2024-11-15
【JAVA毕业设计】基于Vue和SpringBoot的宠物咖啡馆平台
基于Vue.js和SpringBoot的宠物咖啡馆平台是一个综合性的在线服务系统，旨在为宠物爱好者提供一个便捷的宠物护理和社交场所。该平台分为管理后台和用户网页端，以满足不同用户群体的需求。管理后台主
阅读更多2024-11-15
认证鉴权框架SpringSecurity-2--重点组件和过滤器链篇
这4个接口中，每一个都是当认证或者授权过程中发生结果后触发，可以是失败的场景也可以是成功后触发。1个成功后执行，3个为失败后促发执行。
阅读更多2024-11-15

从0开始学习机器学习--Day21--算法的评估标准

准确率和召回率(precision and recall)

相关文章