三、计算机视觉_02计算机视觉领域的四大基本任务

🕗 发布于 2024-11-16 12:27 计算机视觉四大基本任务 人工智能 图像分类目标定位目标检测

0、前言

计算机视觉是人工智能领域的一个重要分支，它是一个跨学科的领域，涉及计算机科学、人工智能、机器学习、图像处理、神经科学等多个学科的知识

计算机视觉使用计算机技术来模拟人类视觉系统的功能，使计算机能够从图像或多维数据中提取信息、识别对象/场景/活动，其目标是使计算机能够像人类一样“看”和“理解”视觉世界

计算机视觉的应用非常广泛，包括：

自动驾驶汽车：使用视觉系统来识别道路标志、行人、其他车辆等
医疗成像：辅助诊断，如肿瘤检测、骨折识别等
安全监控：人脸识别、异常行为检测等
工业自动化：质量控制、机器人导航等
增强现实和虚拟现实：提供沉浸式体验，通过视觉技术增强现实世界
智能手机应用：如面部识别解锁、图像搜索等

计算机视觉通常包括图像分类、目标定位、目标检测和图像分割这四大基本任务，它们是构建更复杂视觉系统的基础，其他的关键任务大多也是在这四大基本任务的基础上延伸开来的‌

1、图像分类（Image Classification）

1.1 概念

分类任务‌解决的是“是什么？”的问题，即：给定一张图片或一段视频，判断其中包含什么类别的目标，通过对图像的特征进行提取和分析，然后将图像分配到特定的类别（例如，识别一张图片中的物体是猫还是狗‌）

1.2 操作过程

Step1：数据预处理：包括图像的缩放、归一化等

Step2：特征提取：使用传统方法（如SIFT、HOG）或深度学习模型自动提取特征

Step3：分类器训练：使用提取的特征训练分类器，如支持向量机（SVM）、随机森林或深度神经网络

Step4：分类预测：将训练好的模型应用于新图像，进行类别预测

1.3 应用场景

包括但不限于以下场景：

图像标注和检索
内容过滤和版权保护
农业中的作物病害识别

1.4 算法模型

传统方法：SIFT、HOG、Bag of Visual Words等
深度学习方法：CNN（如AlexNet、VGGNet、ResNet等）

【备注】

本质上是一个样本级分类，任务比较粗糙，难度较低

2、目标定位（Object Localization）

2.1 概念

定位任务通过预测目标的边界框（bounding box）来标出对象的具体位置（例如，在一张照片中，定位任务能够识别出行人、动物和其他物体，并给出它们在图像中的具体位置‌）

2.2 操作过程

Step1：图像预处理：与图像分类类似

Step2：特征提取：提取有助于定位对象的特征

Step3：边界框预测：使用分类器和回归器预测对象的类别和位置

Step4：后处理：如非极大值抑制（NMS）来去除重叠的边界框

2.3 应用场景

包括但不限于以下场景：

图像编辑和增强
安全监控和交通管理

2.4 算法模型

传统方法：AdaBoost、级联分类器等
深度学习方法：R-CNN系列（R-CNN、Fast R-CNN、Faster R-CNN）、SSD、YOLO等

3、目标检测（Object Detection）

3.1 概念

‌‌检测任务结合了分类和定位的功能，既要识别图像中的对象，又要确定它们的位置，其输出是多个目标

是什么？（类别概率 Probability）
在哪里？（边界框 Bounding Box）

3.2 操作过程

Step1：图像预处理：与图像分类类似

Step2：特征提取：提取有助于检测对象的特征

Step3：对象识别：使用深度学习模型识别对象并预测边界框和类别

Step4：后处理：使用NMS等技术优化检测结果

3.3 应用场景

包括但不限于以下场景：

自动驾驶车辆中的行人和车辆检测
视频监控中的异常行为识别

3.4 算法模型

R-CNN系列（R-CNN、Fast R-CNN、Faster R-CNN）、RetinaNet、SSD、YOLO等

【备注】

本质上是除了做分类之外，还得做定位，而且还是多个目标（同时识别多个类别，每个类别有多个实例，每个实例都要算概率和做定位），因此，其任务比较精细，难度比较大

解决问题的方法：

Step1：把图像切成一个一个的片段
Step2：做图像分类，看每一个小片段是否有相关的目标
- Probability：分类概率就是目标的概率
- Location：片段的边界框就是定位坐标

图像分类策略在目标检测中的应用涉及到特征提取和分类这两个主要步骤，根据操作步骤顺序的不同，可分为以下两种方式：

先切原图，再针对每个片段抽特征，做分类：
- MTCNN：如上所述，MTCNN通过级联的方式逐步精细化目标检测结果，它首先生成候选窗口（切图），然后对这些窗口进行特征提取和分类
先对原图提特征，然后切特征图，再做分类：
- SSD（Single Shot MultiBox Detector）：SSD在不同尺度的特征图上进行检测，能够检测不同大小的目标，它首先对整个图像进行特征提取，然后在这些特征图上生成边界框和类别概率
- YOLO（You Only Look Once）：YOLO将目标检测问题转化为一个回归问题，直接在图像上预测边界框和类别概率，它首先对整个图像进行特征提取，然后在这些特征图上进行目标检测

4、图像分割（Image Segmentation）

4.1 概念

分割任务‌进一步细化了检测任务，不仅识别并定位图像中的对象，还要对每个对象进行像素级的分割，具体可分为语义分割和实例分割这两种类型

语义分割将图像中的每个像素分配给特定的类别，而实例分割则对每个独立对象进行像素级的分割（例如，在一张图片中，语义分割会区分出天空、树木、建筑物等不同类别，而实例分割则会区分出每只猫或每只狗的具体位置和轮廓‌）

4.2 操作过程

Step1：图像预处理：包括去噪、增强等

Step2：分割网络：使用深度学习模型对每个像素进行分类

Step3：后处理：如形态学操作来改善分割结果

4.3 应用场景

包括但不限于以下场景：

医学成像中的组织和病变分割
自动驾驶中的路面和障碍物分割

4.4 算法模型

传统方法：阈值分割、区域生长、分水岭算法等
深度学习方法：FCN、U-Net、Mask R-CNN等

5、版本之子——YOLO

YOLO（You Only Look Once）是一种流行的计算机视觉模型，它最初被设计用于目标检测任务，随着版本的更新，YOLO已经扩展到能够处理包括图像分类、目标定位、目标检测和图像分割在内的多种视觉任务

目前，YOLO以其速度快和准确性高的特性，已经成为目前计算机视觉领域中非常流行和强大的算法，YOLO特别适合于需要实时处理的场景，比如视频监控、自动驾驶等

几乎可以这么说：当今世界，计算机视觉≈YOLO

原文地址：https://blog.csdn.net/weixin_43767064/article/details/143786341

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：如何在 Ubuntu 上安装 Jupyter Notebook
下一篇：Jupyter Book 快捷键总结大全

手机ip地址异常怎么解决
在现代社会中，手机已成为我们日常生活中不可或缺的一部分，无论是工作、学习还是娱乐，都离不开网络的支持。然而，有时我们会遇到手机IP地址异常的问题，这不仅会影响我们的网络体验，还可能带来安全隐患。本文将
阅读更多2024-11-17
Windows 小记 5 -- 判断账户是否是管理员账户
域用户（针对间接或者嵌套用户组，最佳的获取方式是通过令牌SID，如果用户账户已经登陆，则可以通过进程句柄获取令牌，否则，则需要通过凭据登陆获取令牌）此外需要注意，当账户没有启用时，可能是无法创建和登陆
阅读更多2024-11-17
Python 小高考篇（5）自定义函数
通过def关键词，可以自定义一个函数，之后再在代码内调用它。第一行代表定义一个函数，函数名字叫hello；第2行到第3行代表该函数需要执行的东西，第4行代表执行该函数。lambda是一种很简洁（偷懒）
阅读更多2024-11-17
MySQL慢日志
日志顾名思义就是查询慢的sql语句可以记录到一个日志文件里，至于有多慢才会被记录，默认是10秒，但也可以通过系统配置来更改，慢日志在做系统优化时是一个非常好用的工具。上面的操作只是对本次MySQL服务
阅读更多2024-11-17
凹凸/高度贴图、法线贴图、视差贴图、置换贴图异同
因为NormalMap只是改变的表面上的光照结果，并没有改变表面上的形状，不能实现自身内部的遮挡，因此不能表现平面上凹凸起伏比较大的场合。根据经验，这个凸起会很轻易的挡住我们的视线，让我们看不见那支牙
阅读更多2024-11-17
PMBOK® 第六版控制进度
制定了明确的计划后，对计划的控制尤为重要。例如，经常提到的“累积效应”，如果某个阶段的评分仅为0.9分，那么五个得分为0.9分的阶段，最终结果可能只是一个0.5分。
阅读更多2024-11-17
网络通信NetClient实现
上一集我们就完成了数据中心类的内容，那么我们开始需要进行网络的通信，我们这一集就要封装一个类来帮我们实现网络上的通信。
阅读更多2024-11-17
frp内网穿透介绍安装教程
内网穿透（Port Forwarding）是将公网上的IP地址映射到内部网络中的一台计算机的某个端口上，以便外部网络可以访问该计算机中运行的应用程序。内网穿透技术可以通过一些开源工具来实现，其中比较常
阅读更多2024-11-17
【网络】子网掩码
前面我们已经学习了网络的基础知识，对网络的基本框架已有认识，算是初步认识到网络了，如果上期我们的学习网络是步入基础知识，那么这次学习的板块就是基础知识的实践，我们今天的板块是学习网络重要之一，学习完这
阅读更多2024-11-17
网络物理隔离应用
其实公安的摄像头视频好几个王都有，视频量最大的在公安视频专网里面，还有一些就是社会资源的摄像头，比如一些酒店、网吧，他会有视频监控，这些视频监控，是要求你要把它导入到公安视频专网里面，视频专网跟互联网
阅读更多2024-11-17

三、计算机视觉_02计算机视觉领域的四大基本任务

0、前言

1、图像分类（Image Classification）

1.1 概念

1.2 操作过程

1.3 应用场景

1.4 算法模型

2、目标定位（Object Localization）

2.1 概念

2.2 操作过程

2.3 应用场景

2.4 算法模型

3、目标检测（Object Detection）

3.1 概念

3.2 操作过程

3.3 应用场景

3.4 算法模型

4、图像分割（Image Segmentation）

4.1 概念

4.2 操作过程

4.3 应用场景

4.4 算法模型

5、版本之子——YOLO

相关文章