计算机视觉读书系列（1）——基本知识与深度学习基础

🕗 发布于 2024-11-10 15:47 计算机视觉 深度学习 人工智能

研三即将毕业，后续的工作可能会偏AI方向的计算机视觉方面，因此准备了两条线来巩固计算机视觉基础。

一个是本系列，阅读经典《Deep Learning for Vision System》，做一些总结跑一些例子，也对应本系列文章

二是OpenCV实践系列，根据官方自学OpenCV使用方法，对应"OpenCV-Python自学系列"。

后续准备在实际项目中引入一些目前的大模型的东西，视觉语言模型在传统CV任务上的理解和实践等。

本期主要包括基础知识和深度学习介绍。本篇主要以概念为主

一、计算机视觉通识

1.1 计算机器视觉

视觉系统：传感设备 + 解释设备

1.2 计算机视觉的应用

略

1.3 计算集视觉处理流程

计算机视觉处理流程：输入数据——预处理——特征提取——机器学习模型。

以图像分类算法为例，其流程为：从视觉设备输入一张图像、对图像进行预处理（标准化、重采样、模糊、旋转、颜色变换等等）、特性提取（输出为特征向量）、将特征喂到分类模型中、输出概率（该概率代表输入相片是该类别的概率）

1.4 图像输入

图像坐标系：原点为最左上角，横着为x，向右为正；竖着为y，向下为正。（注意，在代码张对图像数据，也即矩阵，进行索引时，仍然按照直观上的行列进行索引）。

图像映射：图像时多层矩阵的组合，每个矩阵中的元素值可看作该点坐标的映射，也即z=f(x,y)，z表示坐标为（x，y）的像素值。

通道：通常情况下，灰度图像为单通道，取值范围0-255，0为黑色，255为白色。彩色图像由三通道组成，R（红色）G（绿色） B（蓝色）。

1.5 图像预处理

预处理一：将图像由彩色转化为灰度降低计算复杂性。对于那些颜色不是很重要的特征而言，可使用该方法。

预处理二：重采样固定模型输入尺寸。

预处理三：数据增强。

等等。。。

理论：没有一个方法或一个策略能适合于所有的任务。

1.6 特征提取

特征定义：

在机器学习过程中，我们希望将原始数据转换为特征向量（一维向量，能简单表示整个类别），再将特征向量展示于我们的学习算法。

如何选择一个好的特征（如何提取出好的特征）？

传统特征提取和DL的区别：

二、深度学习基础

2.1 理解感知机

感知机的构成主要包括以下几个方面：输入向量、权重向量、神经函数、输出。如图

感知机如何进行学习：感知机通过测试和误差从他的错误中进行学习。

2.2 多层感知机

单层的感知机能力有限（线性问题），无法解决复杂情况的问题。因此使用多层神经元的感知机，也即多层感知机。关于多层感知机的概念需要清楚的是：

隐含层的数量：输入层于输出层之间的网络被称为隐含层，隐含层越多其模型拟合能力越强，但容易过拟合。

激活函数：在某个神经元进行加权求和后进行映射操作，是神经网络具备非线性拟合能力的关键。

误差函数：用于衡量模型的预测结果和真实结果之间差距的函数。

优化器：基于模型现有误差对模型进行调整的优化算法。

Batch-Size：采用MiniBatch方式进行训练的情况下，每个批次的包含样本的多少。

训练轮数：整个训练进行的轮次数。

学习率：（优化过程中）学习速度的控制。

2.3 激活函数

激活函数的目的：往神经网络中引入非线性。

线性激活函数：

步型函数：

Sigmoid函数：将无限连续的变量转移到简单的0-1之间的概率。广泛用于分类中。

softmax函数：对Sigmoid函数的泛化，Sigmoid只能处理单类问题，而sigmoid能处理多类型分类中的概率计算问题。

tanh函数：这个函数在隐含层中表现往往比sigmoid函数更好，因为使用tanh会使得数据的均值更接近于0而不是sigmoid的0.5，使得后续的训练更加简单。

ReLU函数：ReLU函数被认为是目前最优秀的（state-of-the-art）的激活函数。

Leaky ReLU函数：虽然用得不多，但通常略优于ReLU，主要是在小于0是提供了小幅度的导数。

2.4 前馈过程

神经网络的前馈过程，加权求和（矩阵乘法）——激活函数——加权求和——激活函数...

其计算过程可表示为：

表示矩阵乘法可为：

2.5 误差函数

常用的误差函数主要由两大类，MSE（Mean Square Error）和Cross Entropy Error。

MSE主要用于回归问题，用于衡量两个向量在空间中的欧式距离的大小。

交叉熵函数（Cross Entropy Error）：量化预测概率和目标概率之间的差距。

参数描述如下：

2.6 优化算法

Batch Gradient Descent：逐步的根据梯度信息对误差进行优化。

梯度：其方向代表了误差下降最快的方向，梯度仅仅提供误差下降的方向信息。

学习率：决定了迭代速度。

Batch GD：将所有数据放在一个Batch中，进行训练，每一个参数更新都是计算了所有训练数据集后的结果。

Stochastic Gradient Descent（SGD）：在每次参数更新时只随机选择一组样本数据计算误差。

在实际应用中SGD表现要由于Batch GD。

Mini-Batch Gradient Descent（MBGD）：将数据集按一定的尺寸分割为不同批次，每计算一个批次就进行一次参数更新。

其余优化算法：Adam、Adagrad、RMSprop等...

2.7 反向传播

根据链式求导法制对每个参数求偏导，获得梯度，进而计算其参数的改正值。

对网络中某个参数的求解可如下：

相当较为基础，笔记较为简略，欢迎批评交流。

下一期：卷积

共勉。

原文地址：https://blog.csdn.net/weixin_51009494/article/details/143527241

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：大模型预训练+微调大模型；大模型提示/指令模式”（Prompt/Instruct Mode）
下一篇：AI侦探：智能技术在犯罪预防与侦查中的前沿探索

【stable diffusion模型】Stable diffusion模型分几种？一文详解，入门必看！
在Stable Diffusion中，模型并不只有一种，不同插件有不同的模型，分别作用于不同的功能。今天小元老师就带大家一起来学习一下～01大模型也就是stable diffusion模型，在默认界面
阅读更多2024-11-14
每日小练：Day2
题目描述：这道题主要考察B盒是不是A盒的子集，我们可以通过哈希表来做。
阅读更多2024-11-14
记录使用大模型过程中遇到的幻觉示例
我怀疑是这个应为这个模型比较新或者相关资料比较少，导致LLM并不认识它，所以再用一个知名度和流传度比较广的模型来试一下，它可以准确的回答。单开一篇，用来持续记录在使用通义千问过程中发现的幻觉问题，用来
阅读更多2024-11-14
springboot育婴经验分享平台-计算机设计毕业源码06078
随着现代社会对育儿知识的需求不断增长，家长们渴望找到一个可靠、便捷的平台来分享和获取育婴经验。为此，我们设计并实现了一个基于SpringBoot的育婴经验分享平台。该平台旨在为家长们提供一个互动交流的
阅读更多2024-11-14
Django 2024全栈开发指南（一）：框架简介、环境搭建与项目结构
本文主要介绍一下Django框架的基础知识、运行环境的搭建，以及开发工具的选择。同时，通过构建一个最基本的基于Django框架的Web应用程序（应用程序一般简称应用），帮助读者快速掌握Django框架
阅读更多2024-11-14
小试银河麒麟系统OCR软件
OCR （Optical Character Recognition，光学字符识别），最初是指电子设备（例如扫描仪或数码相机）检查纸上打印的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形
阅读更多2024-11-14
Python3.11.9+selenium，获取图片验证码以及输入验证码数字
Python3.11.9+selenium，获取图片验证码以及输入验证码数字
阅读更多2024-11-14
【操作系统】每日 3 题（二十二）
📚专栏简介：在这个专栏中，我将会分享操作系统面试中常见的面试题给大家~
阅读更多2024-11-14
python+LLM技术栈的介绍-后端
Django 拥有活跃的开发者社区和丰富的文档资源，支持多种数据库（如 MySQL、PostgreSQL、SQLite 和 Oracle），并且兼容 WSGI 和 FastCGI 服务器。此外，Dja
阅读更多2024-11-14
Java使用Thumbnails进行图片处理
Java使用Thumbnails进行图片处理
阅读更多2024-11-14