自学内容网 自学内容网

pytorch中的zero_grad()执行时机

在反向传播(backward())前执行即可

  1. zero_grad() 用以清除优化器的梯度
  2. 对张量执行backward(),以计算累积梯度
  3. 执行optimizer.step(),优化器使用梯度更新参数
  4. 当优化器更新完成,梯度即失去意义,即可以清除,为保证下一次梯度开始累积时为0,则在下一次执行反向传播前清除即可

原文地址:https://blog.csdn.net/qq_37293230/article/details/140631154

免责声明:本站文章内容转载自网络资源,如本站内容侵犯了原著者的合法权益,可联系本站删除。更多内容请关注自学内容网(zxcms.com)!