大模型学习笔记------BLIP模型的再思考

🕗 发布于 2024-11-14 03:21 大模型 BLIP BLIP推理大模型推理多模态

大模型学习笔记------BLIP模型的再思考

上一篇文章上文中讲解了 BLIP（Bootstrapping Language-Image Pretraining）模型的网络结构与相关的训练技巧。本文将再自己其他方面的思考进行讲解。

1、BLIP推理—如何进行“图生文”

在上篇文章中讲到了BLIP可以完成图像描述生成（Image Caption）任务（“图生文”），那么如何完成这个任务呢？其实完成这个任务只需要BLIP模型中的两个模块即可，即视觉编码器（lmage Encoder）与视觉-文本解码器（image-grounded text decoder），具体如下所示：
在这里插入图片描述

这也很好理解，“图生文”任务肯定是由图像生成文字，那必然有生成模块和图像编码的过程。而且这需要这两个模块就可以。
但是这里面还有一个问题，BLIP模块进行“图生文”任务需不需要Prompt，也就是是否需要提示词。我认为可以有也可以没有，因为算法的设计使得模型在理解图像内容的同时，也能够生成对应的文本描述。这种架构的灵活性使得模型能够适应不同的输入方式。虽然在没有 prompt 的情况下模型仍然可以生成文本，但使用 prompt 可以提高生成文本的相关性和准确性。

2、BLIP推理—如何进行视觉问答（Visual Question Answering, VQA）

如何完成视觉问答（VQA）任务呢？完成这个任务需要BLIP模型中的视觉编码器（lmage Encoder）、视觉-文本编码器（image-grounded text encoder）与视觉-文本解码器（image-grounded text decoder）。通过视觉编码器和视觉-文本编码器建立图像与文本（问题）的关系，将图像与问题融合后的特征输入到视觉-文本解码器中并生成相应的文本。具体如下所示：
在这里插入图片描述

3、BLIP推理—如何进行图文检索（Image-text retrieval）任务

如何完成图文检索（Image-text retrieval）任务呢？其实这个任务与CLIP几乎一摸一样，其实就是进行图像与文本的相似度计算，如果不明白的话，可以查看在以前文章中对CLIP模型的讲解。具体如下所示
在这里插入图片描述
其实这个任务或是分类任务完全可以使用CLIP模型，CLIP相对于BLIP模型更加简便，训练难度更低，对硬件的要求也更低。

4、总结

本文主要是对上一篇文章的补充，如果需要其他讨论的问题可以再评论区进行探讨。同时，如果我的想法有瑕疵也希望各位指教。

原文地址：https://blog.csdn.net/guzhao9901/article/details/143753429

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：设计模式:工厂方法模式和策略模式
下一篇：devenv.exe 应用程序错误

FPGA 第7讲简单组合逻辑译码器
经过验证对比发现两种方法虽然最后实现的功能是一样的，而所得到的 RTL 视图差别较大，但最后的逻辑资源使用却是相同的（时序逻辑中不一定相同），说明综合器进行了适当的优化。if-else 的这种写法是存
阅读更多2024-11-16
梧桐杯初赛入围（人工智能赛道） 15 / 100
本项目开发了一套先进的医疗问答系统，该系统融合了 Reinforced Attention Generator (RAG) 技术与大模型，旨在通过精确的知识检索和问答生成技术，显著提升心理健康咨询系统
阅读更多2024-11-16
faiss 提供了多种索引类型
faiss 多种索引类型
阅读更多2024-11-16
物联网低功耗广域网LoRa开发(二)：LoRa开发环境搭建及驱动移植
【代码】物联网低功耗广域网LoRa开发(二)：LoRa开发环境搭建及驱动移植。
阅读更多2024-11-16
【隐私计算】隐私计算的应用场景探索(大模型隐私计算、隐私数据存储计算、Web3、隐私物联网等)
隐私计算、隐私保护、大模型安全、大模型隐私推理、数据安全、数据隐私、web3、分布式网络、去中心化网络、隐私数据存储、大厂数据保护、隐私计算应用探索
阅读更多2024-11-16
EHOME视频平台EasyCVR多品牌摄像机视频平台监控视频编码H.265与Smart 265的区别？
Smart 265和Smart 264的区别是一个是在H.264编码基础上，一个是在H.265编码基础上，其作用都是在当前码率参数下进一步节省码流，如果你摄像头图像上运动画面越少，静止画面越多，则码率
阅读更多2024-11-16
软件测试基础二十九（接口测试 mock）
软件测试基础之接口测试 mock
阅读更多2024-11-16
《FreeRTOS任务基础知识以及任务创建相关函数》
FreeRTOS学习日志（4）--FreeRTOS任务基础知识以及任务创建相关函数
阅读更多2024-11-16
dlopen: cannot load any more object with static TLS & sklearn, HPOBench, smac3
成功解决：升级glibc版本到2.23。
阅读更多2024-11-16
2024年11月15日Github流行趋势
项目名称：MinerU项目名称：exo项目名称：nvm项目名称：kotaemon项目名称：VideoLingo项目名称：motion项目名称：primeng项目名称：bbot项目名称：es-toolk
阅读更多2024-11-16

大模型学习笔记------BLIP模型的再思考

大模型学习笔记------BLIP模型的再思考

1、BLIP推理—如何进行“图生文”

2、BLIP推理—如何进行视觉问答（Visual Question Answering, VQA）

3、BLIP推理—如何进行图文检索（Image-text retrieval）任务

4、总结

相关文章