最近看到还不错的blog

🕗 发布于 2024-11-12 22:51 大模型

理解多模态大语言模型的原理

近期多模态大语言模型的进展点评

一、统一嵌入解码器架构

图像编码器：通常是预训练的视觉变换器，如CLIP、OpenCLIP

图像编码器的过程：图像划分为小块、经过线性投影层、再接上Transformer encoder。

上面的线性投影层：目的是将被展平为向量的图像块投影到与 Transformer 编码器兼容的 embedding尺寸。

在这里插入图片描述

图像编码器之后的Projector：投影器通常是一个线性投影层，目的是将图像编码器的输出投影到与text token embedding的维度相匹配的维度。也可以叫做适配器、连接器。

二、跨模态注意力架构

cross attention模块会增加很多参数量

LLM复读机问题如何解决

https://www.cnblogs.com/mengrennwpu/p/17901318.html

https://blog.csdn.net/qq_42755230/article/details/143020254

LLM对齐后如何降低通用能力的损失

https://www.cnblogs.com/gogoSandy/p/18132683

堆内存和栈内存

https://blog.csdn.net/icecreamTong/article/details/128612592

吴恩达 state of ai report

https://mp.weixin.qq.com/s/tslzdlcQhZSjI1SF18qIdQ

开源codeLLM

https://mp.weixin.qq.com/s/K55WD7466VMTGiYJVsMZUA

原文地址：https://blog.csdn.net/jinselizhi/article/details/143719875

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：鸿蒙应用权限控制与位置服务（Location Kit）
下一篇：关于 3D Engine Design for Virtual Globes（三维数字地球引擎设计）

Scala-迭代器
迭代器不是一种集合，它是一种用于访问集合的方法。需要通过集合对应的迭代器调用迭代器的方法来访问。支持函数式编程风格，便于链式操作。
阅读更多2024-11-14
2024年11月系统架构设计师考试真题回顾
我选的 SOAP封装,定义了一个描述消息中的内容是什么，是谁发送的，谁应当接收并处理它以及如何处理它们的框架质量属性。
阅读更多2024-11-14
洛谷 P1948 [USACO08JAN] Telephone Lines S（二分+01BFS）
这是一道非常经典的题。我们考虑二分最大的花费。号节点的最短路径，如果。
阅读更多2024-11-14
飞创直线电机模组 VS 传统丝杆模组：谁是自动化传动领域的王者？
飞创直线电机模组在精度、速度、寿命、可拓展性上优于传统丝杆模组，精度±2μm，速度及寿命提升多倍，且可根据需求灵活调整。广泛应用于液晶面板、半导体等多个行业。
阅读更多2024-11-14
群控系统服务端开发模式-应用开发-前端退出功能
群控系统服务端开发模式-应用开发-前端退出功能
阅读更多2024-11-14
理解HTTP中的Cookie与Session：机制、安全性与报头响应
对于一般的信息，可以使用Cookie，但对于一些私密性较高的数据，比如用户密码，浏览痕迹等，如果使用Cookie保存在客户端，很容易被窃取造成泄露，为了避免这一情况，我们引入了Session的概念。
阅读更多2024-11-14
嵌入式硬件杂谈（一）-推挽开漏高阻态上拉电阻
在嵌入式硬件设计中，理解不同类型的输出方式和电路配置对于系统的稳定性和功能实现至关重要。本文首先探讨了常见的输出类型：推挽、开漏和高阻态，并介绍了上拉电阻的基本概念和应用。
阅读更多2024-11-14
循环矩阵和BCCB矩阵与向量乘积的快速计算——矩阵向量乘积与频域乘积之间的转换
循环矩阵是一种特殊的方阵，它的每一行都是前一行向右循环移位一个位置的结果。如果矩阵CCC是n×nn \times nn×n的循环矩阵，那么它可以由第一行的nnn个元素完全确定。假设c0c1cn−1c0
阅读更多2024-11-14
11.12.2024刷华为OD-集合的使用,递归回溯的使用
【代码】11.12.2024刷华为OD-集合的使用,递归回溯的使用。
阅读更多2024-11-14
❤React-React 组件基础（类组件）
React 组件基础
阅读更多2024-11-14