[论文阅读] ChartInstruct: Instruction Tuning for Chart Comprehension and Reasoning

🕗 发布于 2024-09-29 14:26 论文阅读

源码链接：https://github.com/vis-nlp/ChartInstruct

启发：本文构建的instruction-tuning数据集以及使用该数据集对模型进行微调的过程都值得学习。

Abstract

研究对象：图表

研究问题：微调视觉语言模型以更好的解决图表问答和摘要任务

研究方法：引入了 ChartInstruct：一种新颖的图表特定视觉语言教学跟踪数据集，由 191K 条指令和 71K 图表生成。然后，我们提出了两个不同的系统，用于对此类数据集进行指令调整：（1）一个端到端模型，将用于图表理解的视觉编码器与 LLM 连接起来;（2）采用两步方法提取图表数据表并将其输入到 LLM 中的管道模型。

优势：在四个下游任务的实验中，我们的模型获得最先进的结果。进一步的评估表明，我们的指令调优方法支持各种真实世界的图表理解和推理场景，从而将模型的范围和适用性扩展到新的任务类型。

1 Introduction

早期工作试图通过微调最初在语言和视觉任务上训练的模型来解决图表相关任务。但是，此类模型可能不是特定于图表的任务的最佳选择，因为它们忽略了图表结构的显式建模，例如图表元素（如条形、图例和轴）之间的关系。最近的模型，如 UniChart（Masry 等人，2023 年）、Chart-T5（周等人，2023 年）和 MatCha（Liu 等人，2022b）是专门为图表设计的，考虑了图表元素和值的视觉和数学推理。但是，他们通常局限于有限来源的图表，并专注于少数特定的任务，这限制了它们在现实世界中的适用性。事实上，在现实世界广泛的应用中，我们无法确定这些模型能适应哪些应用。

（不少论文都说MatCha等模型局限于有限来源的图表数据集，但是论文真的解决了这个问题吗？难不成真有无限的数据集？另外，这些论文提到泛用性问题，可是论文本身依旧局限于QA和摘要生成，并没能解决更多的问题，这篇论文有改进吗？）

一个有效解决方案是指令调优（instruction tuning），相关文章有：

Training language models to follow instructions with human feedback
Scaling instruction-finetuned language models
Alpaca: A Strong, Replicable Instruction-Following Model
Vicuna: An opensource chatbot impressing gpt-4 with 90%* chatgpt quality
Llama: Open and efficient foundation language models

这些论文表明在instruction-following数据集（包含图表图像以及问答对，不过标注的答案会包含推理过程，从而让模型在训练时能学习正确的推理步骤）上训练LLM能够更好的理解用户意图。然而，图表理解和推理的指令调整仍未得到充分探索，现有方法的instruction-tuning任务缺乏多样性，限制了它们在实际图表理解场景的有效性。

在本文中，我们介绍了图表指令调优（Chart Instruction Tuning），为构建基于 VLM 的通用图表理解和推理助手铺平了道路。为此，我们开发了一个新的图表指令调整数据集，其中包含从 157 个在线平台收集的真实世界图表，涵盖了广泛多样的视觉风格。利用 GPT-3.5（OpenAI-Blog，2022 年）、GPT-4（OpenAI，2023 年）和 Gemini（Team et al.，2023 年）等高级 LLM，我们生成了 191K 条指令，涵盖反映真实世界应用的广泛任务（图 1）。

（或许从157个渠道收集的图表可以称作unlimited range of sources，但是下图所示的9种任务类型实在难以称作“涵盖广泛任务”，因为其中部分任务本质并没有区别，这些问题在作者之前的文章UniChart中已经有体现，ChartLlama涵盖范围更广）

我们设计了两种系统：（1）端到端系统，修改Llava架构，使用Unichart的视觉编码器替换Llava本身的CLIP编码器。（2）两步式方法，先图表结构分析，从图表中提取原始数据表，然后将表格和question作为LLM的输入，得到answer。

通过四个基准进行综合评估：ChartQA、Chart2Text、OpenCQA、ChartFC。并且进一步采取了人工评估。

我们的主要贡献包括：（i）利用 LLM 构建了一个新的带有真实世界图表和广泛任务的指令跟踪语料库，（ii）两个专门为图表理解任务量身定制的不同系统;（iii）广泛的评估，展示了 ChartInstruct 在现有图表相关基准任务中的最新性能，同时也将其适用性扩展到新任务。

2 Related Work

2.1 Chart Modeling

2.2 Visual Instruction Tuning

2.3 Chart Domain Downstream Tasks

3 Chart Instruction Data Generation

3.1 Chart Corpora Collection

图表图像来源有两个：已有的公共数据集和Web爬取图表。公共数据集选择了UniChart论文数据集，该数据集包含611K图表，不过这个数据集的数据来源较为受限。所以我们构建了WebCharts，包含41K图表，这个数据集从各个网站根据关键词检索图表图像并抓取，然后进行筛选，由于这些图标缺少原始表格，所以我们使用Gemini Pro Vision自动提取表格与标题。

3.2 Instruction Data Generation

图表指令数据集生成，包含190774条指令，对应70882张图表，涵盖图表理解和推理的各个方面。

（1）Tasks Selection

Summarization and QA：
Fact Checking：输入关于图表的一段描述文本，需要模型判断这段描述是否准确，并给出accept或者refute反馈以及解释。该任务可以让模型减少事实性错误，提高图表解释准确性。
Chain-of-thought (CoT) Reasoning：旨在增强模型执行复杂数学和视觉推理的能力，这也是目前许多模型有待改进的地方，本文设计了两种类型的问题：变量相关问题，涉及统计量计算等数学运算问题；变量无关问题，侧重数值检索、比较和逻辑分析。
Code Generation：生成可执行的 Python 脚本来回答用户问题。
Novel Tasks：让LLM生成新的图表相关任务，需要注意不能与上述任务重复，这在增强指令集的多样性方面起着至关重要的作用。

（2） Prompt Design

要为不同的任务提供一定的指示，我们首先创建了一组提示符模板，每个模板包含：

任务描述
输入图表数据表，以及图表标题等元数据
输出约束（如果有）
输出格式。

（3） Input and Output Generation

设计好prompt模板之后，利用GPT3.5 Turbo 和 GPT4为每个模板创建input-output实例，由于图表数量有限，我们为每个图表都会生成多种类型的任务实例。

3.3 Dataset Analysis

4 Modeling

4.1 End-to-End System

利用LLaVa架构，将其中的CLIP编码器替换成UniChart视觉编码器。对于语言解码器，本文研究了decoder-only（Llama2）和encoder-decoder（Flan-T5）两种类型的架构。在 Llama2 设置中，提取的视觉特征直接注入到语言解码器中，而在 Flan-T5 模型中，这些特征和指令首先由语言编码器处理，然后解码器生成文本。

在微调时，先冻结视觉编码器和LLM部分，对adaptor进行微调。这是一个对齐阶段，将UniChart视觉编码器的视觉特征与LLM的输入嵌入空间对齐，从而使LLM能够准确解释图表图像，此阶段的两个特定任务是：从图表生成表格和汇总图表内容。对齐后，下一阶段是冻结视觉编码器，训练adaptor和LLM。

4.2 Pipeline System

在第一阶段，也就是图表转换成表格阶段，使用UniChart模型，该模型已被证明能够从图表图像生成高质量的数据表。第二阶段，使用Llama2和Flan-T5模型进行实验。

与端到端方法不同的是，端到端方法传到LLM的是视觉特征，而此处传入LLM的是表格文本，所以不需要进行对齐，可以直接对LLM进行微调。

5 Experiments and Results

5.1 Experimental Setup

5.2 Results and Findings

5.3 Human Evaluation on Chart Tasks

5.4 Error Analysis and Challenges

Value Estimation and Comparison

当图表中的细节过于复杂或者过于简单时，会导致视觉元素与其相关值匹配、数值估算、基于视觉属性的比较遭遇困难。

Factual Errors

尽管我们的模型显示出改进的文本生成质量和更好的可用信息利用率，但它们仍然会产生图表未提及或事实不正确的陈述。

Numerical Reasoning

模型在某些数值推理任务上依旧不够可靠

（模型在指标上面有改进，但原本存在的问题依旧存在，只是有所优化，但并没有对问题作出根源性解决）

6 Conclusion

我们推出了 ChartInstruct，这是一个自动生成的图表相关指令数据集和两个指令系统，专为广泛的图表相关任务而设计。据我们所知，这是第一个指令调整数据集，它不仅包括预定义的任务，还包括 LLM 自动提取的许多新类型的任务。我们的模型在各种自动测量下为四个不同的下游任务设定了最先进的性能，而人工评估进一步证实了我们的方法在许多新任务上的有效性。我们相信我们的模型和指令调整数据集将成为未来研究的宝贵资源，并鼓励进一步探索图表理解和推理的独特问题领域。

原文地址：https://blog.csdn.net/moment8aVry/article/details/142613241

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

window10解决 docker is starting 问题
win10 需要开启 Hyper-V。在程序和功能中开启服务Server (不开启的话，安装完会报错)安装toolbox 最新版 Toolbox 下载地址：访问，注册一个账号，然后登录。点击 Get
阅读更多2024-11-06
JavaScript数据类型- BigInt详解（处理任意大小整数的终极指南）
随着ECMAScript 11（ES11）引入了BigInt，JavaScript开发者现在可以轻松地处理超出传统Number类型限制的大整数。本文全面解析了BigInt的使用方法、核心特性和限制条件
阅读更多2024-11-06
ubuntu下使用pocketsphinx进行语音识别
由于工作需要语音识别的功能，环境是在linux arm版上，所以想先在ubuntu上跑起来看一看，就找了一下语音识别的开源框架，选中了很多框架可以看编译vosk那篇文章，现在一一试验一下。网上对于po
阅读更多2024-11-06
时间段比较与 SQL 实现：交集、并集与补集
时间段比较是一个非常常见的操作，尤其是在涉及调度、事件分析和时间管理的应用中。通过掌握 SQL 中关于时间段交集、并集和补集的查询方式，我们能够高效地处理时间段相关的数据。希望本文的示例和分析能帮助你
阅读更多2024-11-06
flink 内存配置（四）：内存调优和问题处理
本节解释如何根据用例设置内存，以及每种用例中哪些选项是重要的。
阅读更多2024-11-06
深度学习：解密图像、音频和视频数据的“理解”之道20241105
深度学习是一个充满无限可能的领域。无论是图像、音频还是视频数据，深度学习模型都能找到最有效的方式进行处理和理解。希望这篇文章让你对深度学习背后的数据解析过程有了更清晰的认识。你有什么见解或疑问？欢迎留
阅读更多2024-11-06
TOSHIBA 74VHC00FT COMS汽车、工业企业的选择
74VHC00FT集成了四个独立的 NAND 门，每个门都有两个输入。NAND 门是数字逻辑电路中的基本构建模块，只有当所有输入都为高时输出为低。该芯片可以在各种设备中执行逻辑操作，包括计算机、计算器
阅读更多2024-11-06
19. 架构重要需求
对架构师来说，并非所有需求都是同等重要的。有些需求对架构的影响比其他需求大得多。一个 “**架构重要需求（ASR）**” 是一个将对架构产生深远影响的需求 —— 也就是说，如果没有这样的需求，架构很可
阅读更多2024-11-06
[大模型]视频生成-Sora简析
Sora模型的简述
阅读更多2024-11-06
Kubernetes的概述与架构
Kubernetes的概述与架构。
阅读更多2024-11-06