自学内容网 自学内容网

最近看到还不错的blog

理解多模态大语言模型的原理

近期多模态大语言模型的进展点评

一、统一嵌入解码器架构

图像编码器:通常是预训练的视觉变换器,如CLIP、OpenCLIP

图像编码器的过程:图像划分为小块、经过线性投影层、再接上Transformer encoder。

上面的线性投影层:目的是将被展平为向量的图像块 投影到 与 Transformer 编码器 兼容的 embedding尺寸。

在这里插入图片描述

图像编码器之后的Projector:投影器通常是一个线性投影层,目的是将图像编码器的输出投影到 与text token embedding的维度相匹配的维度。也可以叫做 适配器、连接器。

二、跨模态注意力架构

cross attention模块会增加很多参数量

LLM复读机问题如何解决

https://www.cnblogs.com/mengrennwpu/p/17901318.html

https://blog.csdn.net/qq_42755230/article/details/143020254

LLM对齐后如何降低通用能力的损失

https://www.cnblogs.com/gogoSandy/p/18132683

堆内存和栈内存

https://blog.csdn.net/icecreamTong/article/details/128612592

吴恩达 state of ai report

https://mp.weixin.qq.com/s/tslzdlcQhZSjI1SF18qIdQ

开源codeLLM

https://mp.weixin.qq.com/s/K55WD7466VMTGiYJVsMZUA


原文地址:https://blog.csdn.net/jinselizhi/article/details/143719875

免责声明:本站文章内容转载自网络资源,如本站内容侵犯了原著者的合法权益,可联系本站删除。更多内容请关注自学内容网(zxcms.com)!