自动微分-梯度！

🕗 发布于 2024-10-04 01:05 神经网络梯度自动微分 Pytorch Jax

前言背景知识：

正文：

自动微分为机器学习、深度学习神经网络的核心知识之一，若想更深一步使用神经网络进行具体问题研究，那么自动微分不得不了解。 “工欲善其事，必先利其器”，事为我们的研究问题，器乃神经网络、自动微分工具，这就不得不提一提现深度学习框架TensorFlow、PyTorch，还有即时编译、自动微分工具JAX。本文将使用Pytorch和Jax实现自动微分的基本案例。方便大家学习，入门自动微分工具，提供案例模板为Pytorch版和Jax版，为什么没有Tensorflow，因为觉得它不好用！

注：这些框架、工具在CPU、GPU，又或是TPU的运行效率可执行查阅，作者认为Jax可能会成为潮流。

已知基础单层线性回归模型如下：

$h_{\theta }(x)=\theta_{0}+\theta_{1}x$

$J(\theta )=\frac{1}{2m}\sum_{i=1}^{m}(h_{\theta} (x^{(i)})-y^{(i)})^{2},\theta =\left \{ \theta_{0},\theta_{1} \right \}$

则有J关于theta偏导如下:

$\frac{\partial J}{\partial \theta_{0}}=\frac{1}{m}\sum_{i=1}^{m}(h_{\theta}(x^{(i)})-y^{(i)})$

$\frac{\partial J}{\partial \theta_{1}}=\frac{1}{m}\sum_{i=1}^{m}(h_{\theta}(x^{(i)})-y^{(i)})$

原生代码实现计算：

def h_x(theta0,theta1,x):
return theta0+theta1*x

def SG(m,theta0,theta1,X,Y):
sum = 0
for i in range(0,m):
sum += (h_x(theta0,theta1,X[i])-Y[i])
theta0_grad = 1.0/m*sum

sum = 0
for i in range(0,m):
sum += (h_x(theta0,theta1,X[i])-Y[i])*X[i]
theta1_grad = 1.0/m*sum
    
print("O_SG_grad_caculate : {} , {} ".format(theta0_grad,theta1_grad))

#损失函数
def loss(m,theta0,theta1,X,Y):
result = 0.0
for i in range(0,m):
result += (h_x(theta0,theta1,X[i])-Y[i])**2

return result/(2*m)

X = [1,2,3,4,5,6]
Y = [13,14,20,21,25,30]

theta0 = 0.0
theta1 = 0.0

m = 6

y_pre = h_x(theta0,theta1,X)
loss = loss(m,theta0,theta1,X,Y)

print(loss)
SG(m,theta0,theta1,X,Y)

输出：

loss : 227.58333333333334

O_SG_grad_caculate : -20.5 , -81.66666666666666

Pytorch自动微分：

1）torch.autograd.grad计算微分：

import torch

def h_x(theta0,theta1,x):
return theta0+theta1*x

def SG_Torch(theta0,theta1,loss):
theta0_grad,theta1_grad = torch.autograd.grad(loss,[theta0,theta1])
print("T_SG_grad_caculate : {} , {} ".format(theta0_grad,theta1_grad))

X = torch.tensor([1,2,3,4,5,6])
Y = torch.tensor([13,14,20,21,25,30])

theta0 = torch.tensor(0.0,requires_grad=True)
theta1 = torch.tensor(0.0,requires_grad=True)

y_pre = h_x(theta0,theta1,X)
loss = torch.mean((y_pre - Y)**2/2)

#print loss res
print("loss : {}".format(loss))
#print grad res
SG_Torch(theta0,theta1,loss)

输出：

loss : 227.5833282470703

T_SG_grad_caculate : -20.500001907348633 , -81.66667175292969

2）loss.backward()实现计算微分，回传theta0和theta1两叶子节点（设置要求grad)

import torch

def h_x(theta0,theta1,x):
return theta0+theta1*x

X = torch.tensor([1,2,3,4,5,6])
Y = torch.tensor([13,14,20,21,25,30])

theta0 = torch.tensor(0.0,requires_grad=True)
theta1 = torch.tensor(0.0,requires_grad=True)

y_pre = h_x(theta0,theta1,X)
loss = torch.mean((y_pre - Y)**2/2)

loss.backward()

#print loss res
print("loss : {}".format(loss))
#print grad res
print("T_SG_grad_caculate : {} , {} ".format(theta0.grad,theta1.grad))

输出：

loss : 227.5833282470703

T_SG_grad_caculate : -20.500001907348633 , -81.66667175292969

Jax自动微分：

import jax
import jax.numpy as np
from jax import grad

def h_x(theta0,theta1,x):
return theta0+theta1*x

def loss(theta0,theta1,X,Y):
    y_pre = h_x(theta0,theta1,X)
    loss = np.mean((y_pre - Y)**2/2)
    return loss

def SG_Jax(theta0,theta1,l,X,Y):
    g_L_theta0 = grad(loss,argnums = 0)
    g_L_theta1 = grad(loss,argnums = 1)
    
    theta0_grad = g_L_theta0(theta0,theta1,X,Y)
    theta1_grad = g_L_theta1(theta0,theta1,X,Y)
    
    print("J_SG_grad_caculate : {} , {} ".format(theta0_grad,theta1_grad))
    
X = np.array([1,2,3,4,5,6])
Y = np.array([13,14,20,21,25,30])

theta0 = 0.0
theta1 = 0.0

l = loss(theta0,theta1,X,Y)

#print loss res
print("loss : {}".format(l))
#print grad res
SG_Jax(theta0,theta1,l,X,Y)

输出：

loss : 227.58334350585938
J_SG_grad_caculate : -20.500001907348633 , -81.66667175292969

原文地址：https://blog.csdn.net/lin1094201572/article/details/142681859

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：力扣题解 983
下一篇：太速科技-495-定制化仪器户外便携式手提触摸一体机

春意融融：Spring Boot技术在“衣依”服装销售平台的应用
在整个系统测试中，根据需求文档和设计文档，逐一对功能进行检测并写好测试用例，有效避免残片缺陷，因为产品出现缺陷不仅影响功能，而且可以导致数据的不准确，导致产品质量的降低，经过测试，才能使得产品的稳定性
阅读更多2024-10-04
系统架构设计师教程第13章 13.2 表现层架构设计笔记
UIP 提供了一个扩展的框架，用于简化用户界面与商业逻辑代码的分离的方法，可以用它来写复杂的用户界面导航和工作流处理，并且它能够复用在不同的场景、并可以随着应用的增加而进行扩展。界面定制是对用户界面
阅读更多2024-10-04
论文翻译 | Language Models are Few-Shot Learners 语言模型是少样本学习者（中）
在图3.1中，我们展示了第2节描述的8个模型的训练曲线。对于这个图表，我们还包括了6个额外的超小型模型，参数数量少至100,000。正如[KMH+20]中观察到的，当有效利用训练计算时，语言建模性能遵
阅读更多2024-10-04
c++11~c++20 结构化绑定
结构化帮绑定可以作用于3中类型。
阅读更多2024-10-04
Hive SQL业务场景：连续5天涨幅超过5%股票
现有一张股票价格表 dwd_stock_trade_dtl 有3个字段分别是：股票代码(stock_code),日期(trade_date)，收盘价格(closing_price)。请找出满足连续5天
阅读更多2024-10-04
LeetCode 27 remove element
【代码】LeetCode 27 remove element。
阅读更多2024-10-04
uniapp微信小程序巧用跳转封装鉴权路由
2.引入main.js函数进行使用。4.非常完美，完结撒花。
阅读更多2024-10-04
Python人工智能使用OpenCV进行图片形状的中心检测
我们都知道正方形（长方形）的中心是2条对角线的交点，圆的中心是一个圆的圆心，如何在对象检测以及图片检测与识别领域，判断一个形状的中心，便是计算机视觉领域中的一个基础检测
阅读更多2024-10-04
SQL Server 分页查询的学习文章
SQL Server 分页查询的学习文章
阅读更多2024-10-04
报错 libgomp.so.1, needed by vendor/llama.cpp/ggml/src/libggml.so, not found
安装命令 pip install "xinference[all]"在安装 xinference时报错。
阅读更多2024-10-04

自动微分-梯度！

相关文章