大模型面试题：目前大模型中的位置编码有哪些？

🕗 发布于 2024-11-06 14:50 机器学习 深度学习 语言模型面试 1024程序员节

获取更多面试真题的集合，请移步至 https://pica.zhimg.com/80/v2-7fd6e77f69aa02c34ca8c334870b3bcd_720w.webp?source=d16d100b

目前大模型中的位置编码有哪些？

在大模型中，位置编码主要分为两大派：绝对位置编码和相对位置编码。主流的几种脍炙人口的位置编码如下所示：

正弦编码 正弦曲线（Sinusoidal）位置编码：这是Transformer原始论文中提出的位置编码方式。它通过正弦和余弦函数的组合为每个位置创建编码，波长呈几何级数排列，使得每个位置的编码都是独特的，并且能够捕获位置之间的相对关系。公式如下：其中，表示位置，代表embedding的维度，代表的是embedding不同位置的索引。
优点：实现简单，效率高，易用性好，有一定的理论支撑
缺点：绝对位置编码带来的灵活性差；外推性较差，难以对超出预训练长度的文本进行很好的外推或者说性能下降；难以表示有效的相对位置间的关系，也即难以表示前后方向，只能表示距离。
旋转位置编码 旋转位置编码（RoPE）：这是一种相对位置编码，通过旋转向量的方式来编码位置信息。RoPE在特定任务中表现出独特的优势，尤其是在处理具有对称性或周期性特征的数据时。
优点：能保证相对位置关系；良好的外推性；可以和线性注意力机制兼容.
缺点：实现上稍微复制；外推到超长序列也存在性能下降问题

可以参考 https://zhuanlan.zhihu.com/p/647109286 进行学习，十分钟就精通了
ALiBi：相对位置编码（ALiBi）这是一种微调Attention结构的方法，使其能够分辨不同位置的Token。相对位置编码适用于长文本处理和需要捕捉长距离依赖的任务，如机器翻译和问答系统ALibi并没有显示的在网络种加入编码，唯一的修改是在qk点积之后，加入了一个静态的不可学习的bias： m是一个head-specific的超参（multihead），对于n个head而言，步长一般为

优点：实现简单，减少了模型embedding参数，效率高，具有良好外推性，缺点：外推到超长序列也存在性能下降问题

原文地址：https://blog.csdn.net/hguo11/article/details/143505752

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：Stage模型开发指导
下一篇：SpringBoot在线教育系统：多语言支持

身份证人像照片验真 API 对接说明
本文将介绍一种身份证人像照片验真 API 对接说明，它可用于传入身份证人像面照片，识别身份证照片上的信息，并将姓名、身份证号、身份证人像照片与权威库的证件照进行比对，是否属于同一个人，从而验证身份证
阅读更多2024-11-06
Spring Boot 内置工具类
断言是一个逻辑判断，用于检查不应该发生的情况Assert 关键字在 JDK1.4 中引入，可通过 JVM 参数-enableassertions开启SpringBoot 中提供了 Assert 断言工
阅读更多2024-11-06
2023下半年上午（1~11）
也就是父类中定义的方法它有自己的行为，子类继承父类，默认也继承这个方法，也有这个行为，如果子类想用这个方法实现一些自己的操作行为，就可以覆盖重写。例如要相加，下面2个相加add的方法，可以在方法名ad
阅读更多2024-11-06
机器人零位、工作空间、坐标系及其变换，以UR5e机器人为例
刚体坐标系通常固定在机器人部件上，相对于基坐标系进行描述。刚体坐标系在运动过程中相对于基坐标系保持不变，但在各个关节之间的相对关系会随着运动发生变化。每个连杆坐标系通常位于两个关节之间，描述当前连杆相
阅读更多2024-11-06
屋面节能通风装置（薄型/流线型）
4、可纵向或横向布置，常用代号有TCA-1508nxy、TCA-2008nxy、TCA-3008nxy、TCA-6008nxy、TCA-9008nxy、TCA-12008nxy等；4、常用窗型代号TC
阅读更多2024-11-06
【风力发电】基于Matlab的双馈风力发电机建模仿真设计
本文针对双馈风力发电机（DFIG）系统的建模与仿真，提出了一种基于MATLAB/Simulink的设计方法。双馈风力发电机在风能利用和电力输出方面具有较高的灵活性。通过MATLAB建模和仿真，验证了D
阅读更多2024-11-06
大数据新视界 -- 大数据大厂之 Impala 性能优化：解锁大数据分析的速度密码（上）（1/30）
本文围绕 Impala 性能优化展开，阐述其对大数据分析效率和企业决策的关键意义，剖析数据规模与复杂度、查询优化等挑战。介绍数据存储（分区、压缩）和查询（索引、语句重塑）优化策略，并通过电商和金融案例
阅读更多2024-11-06
HarmonyOS 移动应用开发
HarmonyOS 中文名字是鸿蒙操作系统官方解释：HarmonyOS是一款面向万物互联时代的、全新的分布式操作系统。鸿蒙操作系统在传统的单设备系统能力的基础上，提出了基于同一套系统能力、适配多
阅读更多2024-11-06
qt获取本机IP和定位
可以获取公有IP和当前用户所在市的API ，http://whois.pconline.com.cn/ipJson.jsp?json=true找来找去都找不着，那就自己写一个╰（‵□′）╯
阅读更多2024-11-06
【vue-pdf】简单封装pdf预览组件
【代码】【vue-pdf】简单封装pdf预览组件。在Vue中使用vue-pdf来展示PDF文件，首先需要安装vue-pdf
阅读更多2024-11-06

大模型面试题：目前大模型中的位置编码有哪些？

目前大模型中的位置编码有哪些？

相关文章