PaliGemma：A versatile 3B VLM for transfer

🕗 发布于 2024-07-27 01:11 多模态

1.model

1.1 Architecture

图像分辨率为固定的正方形，224，448，896，这导致每种模型都有固定数量的图像token，256，1024，4096。图像在最前面，无需特殊的位置标记，BOS标记文本的开始，\n作为SEP token，不出现在前缀中，单独对SEP进行标记，以避免它与前缀的结束或后缀的开头合并。

1.2 pretraining

stage 0：单模态预训练；

stage 1：多模态预训练，没有任何部分是被冻结的；

stage 2：分辨率提高，在更高分辨率下进行短暂的继续预训练；

stage 3：transfer，将基础模型转变为任务特定的模型。

1.2.1 stage 0：Unimodal pretraining

不训练了。siglip图像编码器，gemma-2B

1.2.2 stage 1：Multimodal pretraining

保持图像编码器不变是常见的做法，图像注释和其他更难学习的任务能够为图像编码器提供有价值的信号

原文地址：https://blog.csdn.net/u012193416/article/details/140721751

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：SQL性能优化：提升数据查询效率的秘诀
下一篇：元素标签的attr属性的巧妙利用（值得收藏）

Spring-IOC容器-ApplicationContext
Inversion of Control 控制反转，是一种设计原则，spring 中通过DI（dependency Injection）来具体实现。比如原本对象的实例化，是通过程序主动New出来，IO
阅读更多2024-09-17
Linux tr命令
⏹Linux tr命令
阅读更多2024-09-17
基于Spring Boot的音乐平台的设计与实现（开题报告）
该开题报告对“基于Spring Boot音乐系统设计与实现”的现状进行了分析，指出了当前存在的问题，提出了解决的方案，研究方法适当。二、主要研究内容（说明研究课题的具体内容及课题的新颖性，并明确重点解
阅读更多2024-09-17
【mechine learning-十-grading descent梯度下降实现】
grading descent 算法就是更新参数，今天来学习下如何更新w和b。
阅读更多2024-09-17
Vite - 依赖预购建
Vite - 依赖预购建
阅读更多2024-09-17
JavaScript之如何优化模板字符串的性能
模板字符串在大多数场景下是非常方便和强大的，但在性能要求高的场景下，合理地优化和调整使用方式可以显著提高性能。减少复杂的模板字符串创建、避免在循环中频繁使用复杂模板、优化嵌套表达式的计算、使用更高效的
阅读更多2024-09-17
Anaconda安装并配置Python环境
Anaconda，中文大蟒蛇，是一个开源的Anaconda是专注于数据分析的Python发行版本，包含了conda、Python等190多个科学包及其依赖项。Anaconda就是可以便捷获取包且对包能
阅读更多2024-09-17
TeamTalk梳理概括
同时把消息进行持久化，将聊天消息发给这个 DBProxy（数据库代理服务），存储消息成功后，DBProxyServer组包应答MsgServer，MsgServer收到回复后组包应答Client A。
阅读更多2024-09-17
Linux whereis和which的区别
环境变量所指定的路径中。如果某个可执行文件不在。所定义的路径中查找。
阅读更多2024-09-17
深入了解字符函数和字符串函数
前言：今天给大家深入理解一下字符函数和字符串函数。通过使用和模拟实现带大家加深理解，让大家灵活使用。
阅读更多2024-09-17

PaliGemma：A versatile 3B VLM for transfer

相关文章