多层感知机（神经网络）

🕗 发布于 2024-07-25 17:19 神经网络 深度学习

一、感知机（逻辑回归、二分类）定义：

感知机其实就是一个逻辑回归模型，解决的是二分类问题。
逻辑回归模型其实就是加入了激活函数后的线性回归模型，加入激活函数的作用是使得输出层单一神经元的单一输出值限制在0和1之间，更适合于二分类问题。
在这里插入图片描述
感知机的训练过程同线性回归，只不过在线性回归的基础上输出之前加入了激活函数进行映射。

二、感知机不能解决XOR问题：

由于逻辑回归模型只能通过一条直线将样本数据划分为两个分类，因此对于下面的样本，无论如何训练模型，得到的决策边界都不能将样本正确的划分。
在这里插入图片描述
因此对于上述问题，应该如何解决？

答案是将多个逻辑回归模型堆叠多层，就能很好的解决上述问题，这就是多层感知机的由来。
在这里插入图片描述
其中黄色的逻辑回归模型、蓝色的逻辑回归模型将样本分别分为两类。最后通过灰色的逻辑回归模型使用蓝色黄色的输出特征作为输入将样本最终分为两类。

三、多层感知机定义：

多层感知机（神经网络）是逻辑回归和Softmax回归的推广，将逻辑回归和Softmax回归堆叠来解决原来单一模型不能解决的问题。其中隐藏层h1–h5为逻辑回归模型，用于根据输入特征分别解决一个二分类问题，输出层o1–o3组成一个Softmax回归模型，根据隐藏层输出的特征进行三分类问题的预测。

在这里插入图片描述

四、训练过程：

1.参数维度：

在这里插入图片描述

输入层维度固定，由数据决定。
隐藏层神经元个数是个超参数，因此隐藏层参数矩阵W、b的行数固定，由输入层维度决定，但是列数不固定，由神经元个数决定。
输出层参数矩阵W、b的列数固定，由分类数目决定，但是行数不固定，由隐藏层神经元个数决定。

对于多隐藏层情况，每个隐藏层都有各自的W、b参数，其中隐藏层层数也是一个超参数。
在这里插入图片描述
注意每一层都是一个全连接层。全连接层概念

2.常用激活函数：

2.1Sigmoid激活函数：

在这里插入图片描述

2.2Tanh激活函数：

在这里插入图片描述

2.3ReLU激活函数：

在这里插入图片描述

3.训练过程举例：******

以十分类模型的一次训练过程为例，其中隐藏层一层，隐藏层神经元个数为256：
1.获取一个batch，里面包含batch_size张图片。
2.将batch_size张图片展成一维（例如24×24的图片展成784），获得输入维度为：batch_size×784×1（图片数×特征维度[784×1]）。
3.隐藏层参数W维度计算为784×256，参数b维度计算为1×256。
4.每张图片的所有特征分别输入隐藏层的各个神经元hi及其激活函数计算预测值yi，一张图片的输出维度为256×1，隐藏层对整个batch的输出维度为batch_size×256×1，作为输出层输入（隐藏层相当于提取特征）。
5.输出层参数W维度计算为256×10，参数b维度计算为1×10。
6.将隐藏层输出特征矩阵作为隐藏层输入，输出层是一个softmax回归模型。
7.接下来的操作同softmax回归，每个1×256×1的特征分别作为输入计算预测值，输出维度1×10的预测结果。
8.整个batch中的输出组合成维度batch_size×10。
9.使用softmax回归将输出映射成概率，维度为batch_size×10，并且每行概率之和为1。
10.使用交叉熵损失函数计算batch中所有图片的概率损失，并取均值。
11.计算各个参数wmn、bn关于损失函数的梯度。
12.反向传播算法修改参数值。
13.输入下一个batch进行训练。

五、底层代码实现：

import torch
from torch import nn
from d2l import torch as d2l
# 1.获取数据，封装成一个dataloader
batch_size = 256
train_iter, test_iter = d2l.load_data_fashion_mnist(batch_size)

num_inputs, num_outputs, num_hiddens = 784, 10, 256# 实现的多层感知机，其中隐藏层数为1，隐藏层中神经元个数为256
# 2.初始化参数值
# 隐藏层
W1 = nn.Parameter(
    torch.randn(num_inputs, num_hiddens, requires_grad=True) * 0.01)# num_inputs×num_hiddens
b1 = nn.Parameter(torch.zeros(num_hiddens, requires_grad=True))# 1×num_hiddens
# 输出层
W2 = nn.Parameter(
    torch.randn(num_hiddens, num_outputs, requires_grad=True) * 0.01)# num_hiddens×num_outputs
b2 = nn.Parameter(torch.zeros(num_outputs, requires_grad=True))# 1×num_outputs

params = [W1, b1, W2, b2]

# 3.实现激活函数
def relu(X):
    a = torch.zeros_like(X)
    return torch.max(X, a)

# 4.损失函数
loss = nn.CrossEntropyLoss()

# 5.实现模型
def net(X):
    X = X.reshape((-1, num_inputs))#将输入X拉成二维矩阵，即batch_size×num_inputs（这里把特征拉成一维）
    H = relu(X @ W1 + b1)# 隐藏层
    return (H @ W2 + b2)# 输出层

# 6.训练过程
num_epochs, lr = 10, 0.1
updater = torch.optim.SGD(params, lr=lr)
d2l.train_ch3(net, train_iter, test_iter, loss, num_epochs, updater)

六、Pytorch版代码：

import torch
from torch import nn
from d2l import torch as d2l

# 1.网络架构
net = nn.Sequential(nn.Flatten(),# 将输入数据展平
                    nn.Linear(784, 256),# 隐藏层为全连接层
                    nn.ReLU(),# 隐藏层输出需经过激活函数
                    nn.Linear(256, 10)# 输出层也是全连接层
                    )
# 2.初始化参数
def init_weights(m):
    if type(m) == nn.Linear:
        nn.init.normal_(m.weight, std=0.01)

net.apply(init_weights);

# 3.训练过程
batch_size, lr, num_epochs = 256, 0.1, 10
loss = nn.CrossEntropyLoss()
trainer = torch.optim.SGD(net.parameters(), lr=lr)

train_iter, test_iter = d2l.load_data_fashion_mnist(batch_size)
d2l.train_ch3(net, train_iter, test_iter, loss, num_epochs, trainer)

原文地址：https://blog.csdn.net/m0_53881899/article/details/140667836

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：网站基本布局CSS
下一篇：微软蓝屏事件：全球IT基础设施的韧性考验与未来展望

Java学习，基本数据类型
System.out.println("最小值：Double.MIN_VALUE=" + Double.MIN_VALUE);System.out.println("最小
阅读更多2024-11-17
创建第一个react项目
通过以上步骤，你已经成功创建并运行了你的第一个React项目。接下来，你可以继续探索React的更多功能，编写更复杂的组件和应用程序。希望这个教程对你有所帮助！如果有任何问题，欢迎随时提问。参考资料R
阅读更多2024-11-17
从零开始的c++之旅——二叉搜索树
这与之前实现的二叉树类似，只不过用上了模板跟构造函数，因为构造函数我们在后面需要用来生成节点。K _key;:_key(key){}//这里也能体现封装思想，不管我们如何实现的类此处我们只需定义成No
阅读更多2024-11-17
c/c++内存管理
int main()// new/delete 和 malloc/free最大区别是 new/delete对于【自定义类型】除了开空间还会调用构造函数和析构函数free(p1);delete p2;/
阅读更多2024-11-17
1、PyTorch介绍与张量的创建
【代码】1、PyTorch介绍与张量的创建。
阅读更多2024-11-17
‌REST风格（Representational State Transfer）
REST风格的核心思想是将Web应用程序的功能作为资源来表示，使用统一的标识符（URI）来对这些资源进行操作，并通过HTTP协议（如GET、POST、PUT、DELETE等）来定义对这些资源的操作。‌
阅读更多2024-11-17
软件测试 —— 自动化基础
自动化是指自动的代替人的行为完成操作，自动化在生活中可以说是随处可见，如：自动洒水机、自动洗手液等，这些生活中的自动案例有效的减少了我们人力的消耗，同时也提高了我们的生活质量，在我们软件中的自动化测试
阅读更多2024-11-17
Python爬虫下载新闻，Flask展现新闻（2）
Python爬虫下载新闻和Flask展现新闻的主要技术
阅读更多2024-11-17
【CSS in Depth 2 精译_057】第九章 CSS 的模块化与作用域 + 9.1 CSS 模块的定义（上）
本篇为《CSS in Depth》全新第2版9.1小节内容的上篇，主要介绍了 CSS 模块化的产生背景及相关概念，并结合上一节层叠图层（cascade layer）的知识，通过一个简单的 messag
阅读更多2024-11-17
分布式事务seata基于docker安装和项目集成seata
分布式系统节点通过网络连接，一定会出现分区问题（P）当分区出现时,系统的一致性和可用性就无法同时满足cp-->不同节点的角色不同ap-->不同节点的角色相同。
阅读更多2024-11-17

多层感知机（神经网络）

目录

一、感知机（逻辑回归、二分类）定义：

二、感知机不能解决XOR问题：

三、多层感知机定义：

四、训练过程：

1.参数维度：

2.常用激活函数：

2.1Sigmoid激活函数：

2.2Tanh激活函数：

2.3ReLU激活函数：

3.训练过程举例：******

五、底层代码实现：

六、Pytorch版代码：

相关文章