Position Embedding总结和Pytorch实现

🕗 发布于 2024-10-17 12:14 embedding pytorch 人工智能

文章目录

出现背景
PE

出现背景

自注意力机制处理数据，并不是采用类似RNN或者LSTM那种递归的结构，这使得模型虽然能够同时查看输入序列中的所有元素（即并行运算），但是也导致了没办法获取当前word在序列种的位置信息，使模型对顺序信息捕捉很差。

PE

位置编码公式

在这里插入图片描述

思路

采用sin和cos函数对word的每一维上进行唯一编码，这样每个word都得到了自己的位置编码信息，并且由于sin和cos都是连续函数，所以针对pos相近的word，他们的位置编码信息也是比较相近的，这样序列的顺序信息就能够获取到了。

TODO遗留问题：sin和cos都是周期函数，会存在位置编码信息重叠吗？

code

import torch
import torch.nn as nn
import math


class PositionalEncoding(nn.Module):
    def __init__(self, d_model, max_len=5000):
        """
        初始化位置编码模块。
        :param d_model: 嵌入的维度
        :param max_len: 最大序列长度
        """
        super(PositionalEncoding, self).__init__()
        # 创建一个足够长的位置编码矩阵 [max_len, d_model]
        pe = torch.zeros(max_len, d_model)
        # 0 到 maxLen - 1 的 张量
        # unsqueeze(1): [maxLen,] => [maxLen, 1]，即[0 到 maxLen] => [[0 到 maxLen]]
        position = torch.arange(0, max_len, dtype=torch.float).unsqueeze(1)
        # 除数张量, [,maxLen]
        div_term = torch.exp(torch.arange(0, d_model, 2).float() * (-math.log(10000.0) / d_model))
        # 奇数和偶数下标的分别处理
        pe[:, 0::2] = torch.sin(position * div_term) # 因为position是[maxLen, 1]，所以会有广播机制
        pe[:, 1::2] = torch.cos(position * div_term)

        # 增加一个维度，将位置编码设置为不可训练
        pe = pe.unsqueeze(0).detach()

        # 注册缓冲区，这样pe不会在训练过程中被视为模型的可训练参数
        self.register_buffer('pe', pe)

    def forward(self, x):
        """
        将位置编码添加到输入嵌入中。
        :param x: 输入嵌入，形状为 (Batch size, Sequence length, d_model)
        """
        # x的形状是 [Batch size, Sequence length, d_model]
        # 从缓冲区中取出相应长度的pe，并添加到x上
        x = x + self.pe[:, :x.size(1)]
        return x

原文地址：https://blog.csdn.net/qq_51976556/article/details/142956847

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：Qt中自定义qDebug打印信息的宏（文件名，行数，函数名，日期，时间等前缀）并取消打印
下一篇：如何将两个视频连接成一个？共有6个方法

Web前端高级工程师培训：函数式编程
管道、组合取舍：管道及组合最大区别在于执行顺序的不同，数据流向不同，达到目的是类似的。可读性更强，js函数不管是否是纯函数都会有一个语义化的名称，更便于阅读。js是多范式编程语言，
阅读更多2024-10-18
前端如何在生成环境下实现自动检测更新
建立一个WebSocket连接，服务器在发布新版本时通过WebSocket向客户端发送更新通知。优点：实时性强，能够即时通知客户端更新。缺点：需要额外的服务器资源来维护WebSocket连接，且可能受
阅读更多2024-10-18
从零实现数据结构：堆的实现和简单堆排序
同理这里向下调整也是一样，需要注意的是这里的写法，我们先是假设左边的结点是小的，然后再用判断。如果不这样做，则需要将父节点和两个子节点进行比较，这样会造成多余的比较次数。当我们交换完成之后，发现依然不
阅读更多2024-10-18
webAPI中的排他思想、自定义属性操作、节点操作（配大量案例练习）
本文旨在帮助大家学习webAPI中的排他思想、自定义属性操作以及节点操作，里面加入了大量练习帮助掌握相关技术
阅读更多2024-10-18
Linux之实战命令41：lshw应用实例(七十五)
本篇目的：Linux之实战命令41：lshw应用实例lshw是 Linux 系统中的一个强大命令行工具，用于获取系统硬件的详细信息。与其他命令相比，lshw提供了更全面的硬件配置报告，涵盖了处理器、内
阅读更多2024-10-18
Nodemon 深入解析与使用
Nodemon 深入解析与使用指南Nodemon 是一个强大的开发工具，用于监控 Node.js 应用程序中的文件变更，能自动重启应用，极大提高开发效率
阅读更多2024-10-18
【Midjourney 中文版】想象的舞台
只需用中文输入你心中的画面描述，无论是梦幻般的仙境、未来感十足的城市景观，还是充满故事的人物形象，它都能迅速理解你的意图，并在瞬间将其转化为令人震撼的视觉图像。这种从文字到图像的神奇转变，仿佛为你的想
阅读更多2024-10-18
C语言 | Leetcode C语言题解之第492题构造矩形
C语言 | Leetcode C语言题解之第492题构造矩形
阅读更多2024-10-18
Github 2024-10-18Java开源项目日报Top9
根据Github Trendings的统计，今日(2024-10-18统计)共有9个项目上榜。
阅读更多2024-10-18
汽车3D动画外包还是自己动手渲染？
高质量的3D渲染往往需要大量的计算资源和时间，如何在保证效果的同时提高渲染效率，是制作过程中的一大挑战。通过将渲染任务提交到云渲染农场，你可以利用专业的渲染集群来完成工作，而你的本地计算机可以继续进行
阅读更多2024-10-18

Position Embedding总结和Pytorch实现

文章目录

出现背景

PE

位置编码公式

思路

code

相关文章