【NLP 11、Adam优化器】

🕗 发布于 2024-12-09 06:15 自然语言处理 人工智能 深度学习

祝你先于春天，

翻过此间铮铮山峦

—— 24.12.8

一、Adam优化器的基本概念

定义

Adam（Adaptive Moment Estimation）是一种基于梯度的优化算法，用于更新神经网络等机器学习模型中的参数。它结合了动量法（Momentum）和自适应学习率方法（如Adagrad和RMSProp）的优点，能够在训练过程中自适应地调整每个参数的学习率，并且利用动量来加速收敛和抑制震荡。

应用场景

广泛应用于深度学习中的各种任务，包括但不限于图像识别、自然语言处理、语音识别等。

例如，在训练卷积神经网络（CNN）进行图像分类任务时，或者在训练循环神经网络（RNN）和Transformer架构的模型用于自然语言处理任务时，Adam优化器都能有效地更新模型参数，使模型更快地收敛并获得较好的性能。

二、Adam优势：

Adam 优化算法应用在非凸优化问题中所获得的优势：

实现简单，计算高效，对内存需求少

参数的更新不受梯度的伸缩变换影响

超参数具有很好的解释性，且通常无需调整或仅需很少的微调

更新的步长能够被限制在大致的范围内（初始学习率）

能自然地实现步长退火过程（自动调整学习率）

很适合应用于大规模的数据及参数的场景

适用于不稳定目标函数

适用于梯度稀疏或梯度存在很大噪声的问题

三、基本机制

Adam 算法和传统的随机梯度下降不同。

随机梯度下降保持单一的学习率(即 alpha)更新所有的权重，学习率在训练过程中并不会改变。

而 Adam 通过计算梯度的一阶矩估计和二阶矩估计而为不同的参数设计独立的自适应性学习率。

记录前几次梯度的值，然后第一层进行求均值，第二层进行求均值的平方，再与当下轮次的梯度进行复合，得到这一轮的loss值，这个目的就是结合一些历史数据，然后自动调节当下轮次模型参数的学习率，对于不平稳的梯度进行更新

四、手动实现Adam算法

#adam梯度更新
def diy_adam(grad, weight):
    #参数应当放在外面，此处为保持后方代码整洁简单实现一步
    alpha = 1e-3  #学习率
    beta1 = 0.9   #超参数
    beta2 = 0.999 #超参数
    eps = 1e-8    #超参数
    t = 0         #初始化
    mt = 0        #初始化
    vt = 0        #初始化
    #开始计算
    t = t + 1
    gt = grad
    mt = beta1 * mt + (1 - beta1) * gt
    vt = beta2 * vt + (1 - beta2) * gt ** 2
    mth = mt / (1 - beta1 ** t)
    vth = vt / (1 - beta2 ** t)
    weight = weight - (alpha * mth/ (np.sqrt(vth) + eps))
    return weight

原文地址：https://blog.csdn.net/m0_73983707/article/details/144326126

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

HQL（JPQL）和原生SQL实现查询自定义返回类
方法来限制查询结果的数量；或者使用JPQL的分页功能来实现相同的效果，可以定义一个返回。如果需要为了实现类似的功能，可以使用JPQL的。的方法，并在调用时设置分页参数；关键字，可以在某些数据库中使用。
阅读更多2025-01-15
ETL 数据抽取
ETL 数据抽取是数据集成和处理过程中的关键步骤，负责从各种数据源中提取数据。通过选择合适的 ETL 工具和数据抽取方法，可以确保数据抽取的高效性、准确性和可靠性。在实际应用中，需要根据企业的业务需求
阅读更多2025-01-15
QT跨平台应用程序开发框架（2）—— 初识QT
目录一，创建helloworld1.1 通过图形化1.2 通过代码1.3 通过编辑框1.4 使用按钮二，对象树2.1 关于对象树2.2 演示释放流程三，乱码问题3.1 为什么会有乱码问题3.2 解决乱
阅读更多2025-01-15
关于递归的若干算法v2.0
关于算法的学习
阅读更多2025-01-15
常用阈值分割算法及 C++ 代码分析（二）
阈值分割是图像处理中一种基础且重要的技术，它的核心思想是通过设定一个或多个阈值将图像中的像素划分为不同的类别，以实现图像中目标和背景的分离，或者不同目标之间的分离。这种技术广泛应用于物体检测、图像识别
阅读更多2025-01-15
mysql 双主双从 + proxysql 代理
ProxySQL 本质上是一个中间代理层，当客户端连接到 ProxySQL 并使用某个用户身份发起请求时，ProxySQL 会以同样的用户身份将请求转发到后端 MySQL 服务器。default_ho
阅读更多2025-01-15
探索AI与鸿蒙开发新领域：从《星火AI使用指南》到《鸿蒙应用开发宝典》
在数字化的今天，科技的飞速发展让我们每天都在面临新的挑战和机遇。尤其是对于那些追求效率、寻求突破的职场人士来说，掌握最新的科技知识和技能显得尤为重要。今天，我想向大家推荐两本极具实用价值的书籍——《A
阅读更多2025-01-15
GitLab 国际站中国大陆等地区停服，如何将数据快速迁移到云效
代码托管平台 GitLab 国际站（GitLab.com）近日发布公告，官宣即将停止对中国大陆、香港、澳门地区的用户账号提供服务，并提供 60 天过渡期自行迁移账户数据，超期未迁移的账号可能会被 Gi
阅读更多2025-01-15
力扣经典题目之120.三角形最小路径和
这个问题要求我们在一个数字三角形中找到从顶部到底部的路径，使得路径上的数字总和最小。三角形的每一行数字数量递增，从顶部开始，每一步可以选择移动到下一行的相邻数字上。对于这类问题是一种经典的动态规划的问
阅读更多2025-01-15
深入 Solana 共识 - 从分叉到最终确定性
共识是每个区块链构建的基本要素。它确保交易，无论是花费代币还是执行智能合约，都能在没有中央权威的情况下得到正确的验证和执行。设计和构建共识协议有很多方法。在这篇博客文章中，我们将详细介绍 Solan
阅读更多2025-01-15