VLM 系列——Object Recognition as Next Token Prediction——论文解读
一、概述
1、是什么
结合了CLIP 的视觉编码器+语言模型Llama 的部分参数,将常见的图片描述任务转变为只输出属性,换言之将图片分类转变为预测下一个文本输出token。这样就能够生成图片的top K属性(英文),用于开放域的图片Tag 场景。
2、亮点
*对图像-标题(从原始标题中提取名词作为参考标签)对进行训练,比图像-问题-答案三元组更容易收集和注释。对于推理,生成文本片段作为标签而不是句子。
*解码器具有不同的令token建模机制,不同标签的token独立,相同标签的token仍然是因果(后面的依赖前面),标签标记都以图像嵌入为条件。实现方式就是一个非因果注意掩码。
*非因果掩蔽机制激发了一种新的采样方法,称为一次性采样,用于生成标签的文本token。同时对多个标签的标记进行并行抽样,并根据它们的概率对它们进行排序。这利用了transformer强大的并行化能力。
*简单的策略来提高模型效率。从一个预训练的LLM开始,例如LLaMA,保留前六个transformer块以及最终输出层,删除中间的块。与完整的模型性能相匹配,推理速度快4.5倍。
PS
*这里作者没有对比RAM 这类模型,可能作者认为他面向的是开放域。但是如果你的应用场景是可以提前知道想要的类别标记,那么完全可以去对比RAM++,即使RAM+
原文地址:https://blog.csdn.net/u012863603/article/details/135465039
免责声明:本站文章内容转载自网络资源,如本站内容侵犯了原著者的合法权益,可联系本站删除。更多内容请关注自学内容网(zxcms.com)!