自学内容网 自学内容网

PaliGemma:A versatile 3B VLM for transfer

 

1.model

1.1 Architecture

图像分辨率为固定的正方形,224,448,896,这导致每种模型都有固定数量的图像token,256,1024,4096。图像在最前面,无需特殊的位置标记,BOS标记文本的开始,\n作为SEP token,不出现在前缀中,单独对SEP进行标记,以避免它与前缀的结束或后缀的开头合并。

1.2 pretraining

stage 0:单模态预训练;

stage 1:多模态预训练,没有任何部分是被冻结的;

stage 2:分辨率提高,在更高分辨率下进行短暂的继续预训练;

stage 3:transfer,将基础模型转变为任务特定的模型。

1.2.1 stage 0:Unimodal pretraining

不训练了。siglip图像编码器,gemma-2B

1.2.2 stage 1:Multimodal pretraining

保持图像编码器不变是常见的做法,图像注释和其他更难学习的任务能够为图像编码器提供有价值的信号


原文地址:https://blog.csdn.net/u012193416/article/details/140721751

免责声明:本站文章内容转载自网络资源,如本站内容侵犯了原著者的合法权益,可联系本站删除。更多内容请关注自学内容网(zxcms.com)!