最近看到还不错的blog
一、统一嵌入解码器架构
图像编码器:通常是预训练的视觉变换器,如CLIP、OpenCLIP
图像编码器的过程:图像划分为小块、经过线性投影层、再接上Transformer encoder。
上面的线性投影层:目的是将被展平为向量的图像块 投影到 与 Transformer 编码器 兼容的 embedding尺寸。
图像编码器之后的Projector:投影器通常是一个线性投影层,目的是将图像编码器的输出投影到 与text token embedding的维度相匹配的维度。也可以叫做 适配器、连接器。
二、跨模态注意力架构
cross attention模块会增加很多参数量
LLM复读机问题如何解决
https://www.cnblogs.com/mengrennwpu/p/17901318.html
https://blog.csdn.net/qq_42755230/article/details/143020254
LLM对齐后如何降低通用能力的损失
https://www.cnblogs.com/gogoSandy/p/18132683
堆内存和栈内存
https://blog.csdn.net/icecreamTong/article/details/128612592
吴恩达 state of ai report
https://mp.weixin.qq.com/s/tslzdlcQhZSjI1SF18qIdQ
开源codeLLM
https://mp.weixin.qq.com/s/K55WD7466VMTGiYJVsMZUA
原文地址:https://blog.csdn.net/jinselizhi/article/details/143719875
免责声明:本站文章内容转载自网络资源,如本站内容侵犯了原著者的合法权益,可联系本站删除。更多内容请关注自学内容网(zxcms.com)!