反向传播和优化 pytorch

🕗 发布于 2024-10-16 04:45 pytorch 人工智能 python

**前置知识：

优化器：optim=torch.optim.SGD(xigua1.parameters(),lr=0.01) 传入模型的参数、学习速率

计算损失：result_loss=loss(outputs,targets)

梯度清零：optim.zero_grad()

计算梯度并反向传播：result_loss.backward()

更新参数：optim.step()

optim.zero_grad(): 在每次训练迭代之前清除所有优化器（如SGD、Adam等）维护的梯度信息。在神经网络中，每个参数（如权重和偏置）都有一个与之关联的梯度，这个梯度表示参数对损失函数的贡献程度。随着训练的进行，这些梯度会被累积，如果不加以重置，会导致梯度累加，从而影响模型的学习效果。因此，zero_grad() 函数通过将这些梯度重置为零，确保了每次迭代都是在无偏见的情况下开始。
result_loss.backward(): 执行反向传播算法，计算损失函数相对于模型参数的梯度。在神经网络前向传播过程中，网络输出与实际标签之间的差异被量化为损失函数。backward() 函数通过链式法则自动计算损失函数对每个参数的梯度，这些梯度随后被存储在相应的参数的 .grad 属性中。这一步是优化过程的核心，因为它直接关系到参数如何被调整以最小化损失。
optim.step(): 在计算出损失函数的梯度后，step() 函数根据这些梯度来更新模型参数。优化器使用特定的算法（如梯度下降、Adam等）来决定如何更新每个参数，以便在下一次迭代中减少损失。简而言之，step() 函数实现了从当前参数状态向更优参数状态的“跳跃”。

总的来说，这三个函数协同工作，形成了深度学习中参数优化的基本流程：首先清除旧的梯度信息，然后计算新的梯度，最后根据这些梯度更新参数。这一过程在每次训练迭代中重复进行，直到模型的性能满足要求或达到预设的停止条件。

**代码：

import torch
import torchvision.datasets
from torch import nn
from torch.nn import Conv2d, MaxPool2d, Flatten, Linear, Sequential
from torch.utils.data import DataLoader
from torch.utils.tensorboard import SummaryWriter

#以CIFAR10的分类检测为例

test_set=torchvision.datasets.CIFAR10(root="./dataset",train=False,transform=torchvision.transforms.ToTensor(),download=True)
dataloader=DataLoader(test_set,batch_size=1)

class Xigua(nn.Module):
    def __init__(self):
        super().__init__()
        self.model1=Sequential(
        Conv2d(3,32,5,padding=2),
        MaxPool2d(2),
        Conv2d(32,32,5,padding=2),
        MaxPool2d(2),
        Conv2d(32,64,5,padding=2),
        MaxPool2d(2),
        Flatten(),
        Linear(1024,64),
        Linear(64,10),
        )

    def forward(self,x):
        x=self.model1(x)
        return x

xigua1=Xigua()
loss=nn.CrossEntropyLoss()
optim=torch.optim.SGD(xigua1.parameters(),lr=0.01)

#为了节省时间，这里能显示出优化的效果即可，就只训练5轮，每轮都只是计算前10个数据
for epoch in range(5): #训练5轮
    running_loss=0.0 #每轮都计算出一个所有数据损失的总和
    step=0
    for data in dataloader:
        imgs,targets=data
        outputs=xigua1(imgs)
        result_loss=loss(outputs,targets)
        optim.zero_grad() #将梯度清零
        result_loss.backward() #计算损失对应的梯度，并将其反向传播
        optim.step() #更新模型参数
        #loss函数在其中只是起到了一个提供梯度的作用，而这个梯度就藏在optim中
        running_loss+=result_loss
        step+=1
        if step>=10:
            break
    print(running_loss)

原文地址：https://blog.csdn.net/2302_79795489/article/details/142960078

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：centos安装jdk8(linux安装jdk8)
下一篇：知识见闻 - 美国连线杂志

leetcode289:生命游戏
根据，简称为，是英国数学家约翰·何顿·康威在 1970 年发明的细胞自动机。给定一个包含m × n个格子的面板，每一个格子都可以看成是一个细胞。每个细胞都具有一个初始状态：1即为（live），或0即为
阅读更多2024-10-20
MongoDB数据恢复
注意：两个MongoDB的版本要一致，本文使用的是mongo:4.2.24。先把K8S上面的MongoDB 容器停止（可以把副本改成0）。1、将容器挂载MongoDB的数据目录备份到本地。经常是数据文
阅读更多2024-10-20
C#中实现事务
C#中实现事务
阅读更多2024-10-20
【LeetCode每日一题】——560.和为 K 的子数组
给你一个整数数组 nums 和一个整数 k ，请你统计并返回该数组中和为 k 的子数组的个数。子数组是数组中元素的连续非空序列。
阅读更多2024-10-20
「漏洞复现」满客宝智慧食堂系统 selectUserByOrgId 未授权访问漏洞
请勿利用文章内的相关技术从事非法测试，由于传播、利用此文所提供的信息而造成的任何直接或者间接的后果及损失，均由使用者本人负责，作者不为此承担任何责任。工具来自网络，安全性自测，如有侵权请联系删除。本次
阅读更多2024-10-20
React面试题目（从基本到高级）
React前端面试常见题目涵盖了React的基础概念、组件、状态管理、生命周期、性能优化等多个方面。
阅读更多2024-10-20
12.个人博客系统（Java项目基于spring和vue）
1 在校学习的学生，可用于日常学习使用或是毕业设计使用 2 毕业一到两年的开发人员，用于锻炼自己的独立功能模块设计能力，增强代码编写能力。 3 亦可以部署为商化项目使用。 4 需要完整资料及源码
阅读更多2024-10-20
YoloV8改进策略：注意力改进|DeBiFormer，可变形双级路由注意力|引入DeBiLevelRoutingAttention注意力模块（全网首发）
本次改进的核心在于将DeBiLevelRoutingAttention模块嵌入到YoloV8的主干网络中，具体位置是在SPPF（Spatial Pyramid Pooling Fast）模块之后。这一
阅读更多2024-10-20
word取消自动单词首字母大写
情况说明：在word输入单词后首字母会自动变成大写取消单词首字母大写步骤：（1）点击菜单栏文件（2）点击“更多”——>“选项”（3）点击“校对”——>“自动更正选项”（4）取消“句首字母大
阅读更多2024-10-20
web前端网页用户注册页面
【代码】web前端网页用户注册页面。
阅读更多2024-10-20

反向传播和优化 pytorch

**前置知识：

**代码：

相关文章