【自动驾驶BEV感知之Transformer】

🕗 发布于 2025-01-20 18:08 自动驾驶 transformer 人工智能

欢迎大家关注我的B站：

偷吃薯片的Zheng同学的个人空间-偷吃薯片的Zheng同学个人主页-哔哩哔哩视频 (bilibili.com)

本文为深蓝学院《BEV感知理论与实践》的学习笔记

以图书馆看书举例
query：查询，感兴趣的东西
Key：索引，书的名字、目录
Value：值，书的详细内容
Transformer可以看作我们有自己感兴趣的方向，然后去图书馆里找，怎么找呢，肯定是看书的名字，翻一下目录来确定和你的兴趣是否匹配，如果匹配就翻开书挑里面感兴趣的东西进行学习
Attention也就是注意力是query和Key的点积，代表两者之间的相似度，相似肯定需要更加关注，然后通过Attention乘value也能更新value从而提取出value中更重要的内容

以Hi how are you 为例子，对这四个词进行编码，每个都得到一个256维的向量，可以理解为在256个维度对这个词的一些描述来表征这个词
然后他们分别对应的QKV通过同一批权重矩阵相乘得到
然后以Hi为例，他的query和别人的key点积得到Attention，再乘上别人的value得到在自己的value基础上可以更新的内容，然后Hi要和其他三个以及他自己都做这个操作
互相之间的QKV操作其实本质上是学习了更好的全局特征，通过别人来丰富自己
输入输出都是256维的向量，内部其实在相互之间学习，也称为self-Attention
self-Attention的本质是来自同一组embedding

这是矩阵的形式，核心就是得到了一个Attention矩阵
然后通过缩放更稳定，以及一个softmax得到了概率矩阵
self-Attention的目的是学习全局信息，找到自己的ID
multi-head：每个头独立关注输入的不同子空间，有助于学习多样化的特征，但维持整体输出维度不变

encoder和decoder如何交互
1. Query：来自 Decoder 当前时间步的隐藏状态。
2. Key 和 Value：来自 Encoder 的输出表示
三种Attention
1. encoder：自注意力机制
2. decoder：Masked 自注意力（屏蔽未来的词，确保自回归） → Encoder-Decoder 注意力
Padding mask
1. 用于忽略填充位置，确保它们不影响注意力权重和损失计算
2. 设置为负无穷的score使得softmax的概率为0

原文地址：https://blog.csdn.net/weixin_65089713/article/details/145247386

免责声明：本站文章内容转载自网络资源，如侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：C/C++内存管理（超详解）
下一篇：多股票特征处理例子

react中，使用antd的Upload组件切片上传.zip文件及压缩包的下载
【代码】react中，使用antd的Upload组件切片上传.zip文件及压缩包的下载。
阅读更多2025-01-21
Spring Boot 启动流程解析及重点源码
综上所述，我们详细解析了 Spring Boot 应用程序的启动流程，并提供了关键步骤中的源码分析。了解这一过程不仅有助于我们更好地掌握 Spring Boot 的工作原理。
阅读更多2025-01-21
在Spring Boot中使用SeeEmitter类实现EventStream流式编程将实时事件推送至客户端
是浏览器与服务器之间的一种通信机制，允许服务器向客户端发送事件流。与WebSocket不同，SSE是单向通信，适用于需要实时更新数据的场景，如通知、新闻推送、实时数据更新等。SSE的工作方式是：客户端
阅读更多2025-01-21
深入Spring Boot：自定义Starter开发与实践
Starter是SpringBoot的核心组件之一，它是一种依赖管理机制，旨在简化Spring应用的开发过程。通过引入一个Starter模块，开发者可以快速启用SpringBoot提供的特定功能，而无
阅读更多2025-01-21
低代码系统-产品架构案例介绍（三）
简单介绍一个低代码产品。
阅读更多2025-01-21
Dify：低代码 AI 应用开发平台详解与实战指南
Dify是一个低代码AI应用开发框架，支持多种大语言模型（LLM），允许用户通过可视化界面或API轻松创建AI应用，无需深厚的编程技能。
阅读更多2025-01-21
Ae 表达式语言引用：Layer - 3D
Layer-3D（3D 图层属性）组允许访问和控制图层的三维变换属性、光照属性、材质属性、反射属性等。通过这些属性，可以实现动态的三维旋转、光照效果控制、材质特性调整，极大地提升 After Effe
阅读更多2025-01-21
畅游Diffusion数字人(14)：基于3D人体网格的语音驱动手势视频生成 ECCV 2024
根据语音输入生成与说话内容、情感和节奏相匹配的自然、流畅且逼真的手势视频。该技术在虚拟形象、虚拟现实、动画制作等领域具有重要应用价值。然而这方面的研究非常少，这篇博客解读一篇ECCV2024的最新论文
阅读更多2025-01-21
Zemax STAR 模块的入门设置
下一步是通过使用下拉手册将表面分配给数据集，将每个多物理场数据与相应的表面对齐。Zemax OpticStudio 中的 STAR 模块允许直接导入来自有限元分析（FEA）软件的变形数据，从而将光
阅读更多2025-01-21
拓扑学：单纯形(simplex)
拓扑学：单纯形(simplex)
阅读更多2025-01-21

【自动驾驶BEV感知之Transformer】

相关文章