NLP论文速读（CVPR 2024）|学习文本到图像生成的多维人类偏好

🕗 发布于 2024-11-25 11:04 自然语言处理学习 人工智能 深度学习 计算机视觉

论文速读|Learning Multi-dimensional Human Preference for Text-to-Image Generation

论文信息：

简介：

本文讨论的是文本到图像生成领域中的一个关键问题，即如何准确评估由文本描述生成的图像质量。传统的评估方法主要依赖于统计指标，如Inception Score (IS)、Fréchet Inception Distance (FID)和CLIP Score等，但这些指标往往不能很好地代表人类的真实偏好。尽管有些工作尝试通过人工标注的图像来学习这些偏好，但它们通常将复杂的人类偏好简化为单一的总体评分，忽略了人类在评估图像时会从多个维度进行考量的事实。动机在于现有的文本到图像生成模型在创建高质量图像方面取得了显著进展，但在实际应用中往往未能与人类偏好对齐。此外，人类在评估图像时会从多个角度进行考量，例如图像的美观程度、与文本描述的一致性、细节的清晰度等，而单一维度的评估方法无法充分捕捉这种复杂性。因此，本文旨在通过构建一个多维度的人类偏好评分模型（MPS），来更好地评估和改进文本到图像的生成质量。

论文方法：

本文提出了一个名为多维偏好评分（Multi-dimensional Preference Score, MPS）的模型，该模型基于CLIP模型构建，并引入了一个偏好条件模块来学习不同的偏好。

MPS模型的训练基于多维人类偏好（Multi-dimensional Human Preference, MHP）数据集，该数据集包含了918,315个人类偏好选择，涵盖了607,541张由多种最新的文本到图像模型生成的图像，覆盖了美学、语义对齐、细节质量和总体评估四个维度。

MPS模型的工作流程如下：

1）使用CLIP模型从图像和文本中提取特征。

2）通过条件掩码（condition mask）来突出与特定偏好条件相关的文本部分，同时抑制不相关的部分。

3）将图像和文本的特征通过多模态交叉注意力层（multimodal cross-attention layer）融合。

4）使用融合后的特征来预测偏好分数。

MPS模型的关键创新在于条件掩码的使用，它允许模型在计算偏好分数时只关注与特定偏好条件相关的文本部分。这样，即使是在偏好之间相关性较弱的情况下，MPS模型也能够有效地预测多维度的人类偏好。通过在三个数据集上的性能比较，MPS模型在预测总体偏好和多维度偏好方面均优于现有方法，证明了其方法的有效性和泛化能力。

论文实验：

根据提供的Table 3，我们可以了解到论文中的实验部分主要关注于评估和比较不同方法在预测人类对文本到图像合成模型偏好的准确性。MPS在所有三个数据集上都展现出了比现有方法更高的准确率。在ImageReward数据集上，MPS的准确率为67.5%，高于其他所有方法。在HPD v2数据集上，MPS的准确率达到了83.5%，同样高于其他方法。在MHP数据集（总体）上，MPS的准确率为74.2%，表现优于其他方法。论文还比较了不同方法在预测多维度人类偏好方面的表现，这些维度包括总体、美学、语义对齐和细节。

论文链接：

https://arxiv.org/abs/2405.14705

原文地址：https://blog.csdn.net/2401_85576118/article/details/144007183

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：DNS域名解析服务器
下一篇：Pytorch使用手册-Build the Neural Network（专题五）

【Go】-go中的锁机制
简单的说方法内联就是将被调用方函数代码“复制”到调用方函数中，减少函数调用开销，在2018年之前的go版本中，所有的逻辑都在Lock函数中，并没有拆出来，2018年之后Go开发者将slow path拆
阅读更多2024-11-25
基于Java Springboot校园跑腿系统
项目编号：springbootA188随着互联网技术的不断发展和校园生活的多样化需求，校园跑腿系统应运而生。该系统旨在为大学生提供一个便捷的在线服务平台，解决校园内学生因时间紧张、事务繁忙而无法亲自处
阅读更多2024-11-25
【Leecode】Leecode刷题之路第59天之螺旋矩阵II
代码示例：（Java）代码示例：（Java）代码示例：（Java）
阅读更多2024-11-25
C++共享智能指针
C++中没有垃圾回收机制，必须自己释放分配的内存，否则就会造成内存泄漏。解决这个问题最有效的方式是使用智能指针。智能指针是存储指向动态分配(堆)对象指针的类，用于生存期的控制，能够确保在离开指针所在作
阅读更多2024-11-25
使用NAS开启无纸化办公，Docker部署开源文档管理系统『Paperless-ngx』
今天分享的这个项目还是非常实用了，它可以让我们更好地管理他们的文档，提高生产力，减少纸张使用，不管是对企业还是个人都是一个实用的解决方案，有兴趣的小伙伴可以整起来了！最近正逢极空间双十一感恩回馈大促销
阅读更多2024-11-25
【数字图像处理+MATLAB】通过 Roberts, Prewitt, Sobel, LoG 等算子实现图像边缘检测：使用 edge 函数
边缘检测是图像处理中的一种技术，用于识别图像中的物体边界。边缘是图像亮度函数快速变化的地方，通常对应于物体或物体部分的边界。边缘检测的目标是显著减少图像中的数据量，同时保留有用的结构信息。常用的边缘检
阅读更多2024-11-25
设计模式——前端控制器模式
前端控制器模式（Front Controller Pattern）是一种软件设计模式，主要用于集中处理 Web 应用或其他多层架构应用的请求。它作为一个单一的入口点来接收和处理所有的客户端请求，将请求
阅读更多2024-11-25
吊车-双摆系统的控制
吊车双摆控制
阅读更多2024-11-25
原生openGauss与Oracle数据库函数兼容性对比验证测试
近期在进行调研去O,为此研究了下原生openGauss和Oracle数据库兼容性，特整理测试了Oracle常用函数和openGauss数据库的对比测试。
阅读更多2024-11-25
修复kernel编译栈帧大小异常问题error: the frame size of 1928 bytes is larger than 1024 bytes
并且内存是4K分页，创建一个内核栈就需要申请连续2块的4K页，内存紧张的时候，申请8K的连续内存比申请4K困难的多；(1)栈内存申请过大，或者函数调用层次太深都会导致栈溢出，引起系统崩溃，在编译时会去
阅读更多2024-11-25

NLP论文速读（CVPR 2024）|学习文本到图像生成的多维人类偏好

论文速读|Learning Multi-dimensional Human Preference for Text-to-Image Generation

简介：

论文方法：

论文实验：

论文链接：

相关文章