[论文阅读]SCOTT: Self-Consistent Chain-of-Thought Distillation

🕗 发布于 2024-10-13 12:33 论文阅读

中文译名：SCOTT: 思维链一致性蒸馏

会议：Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)

链接：SCOTT: Self-Consistent Chain-of-Thought Distillation - ACL Anthology

摘要：

尽管思维链 CoT 可以显著提高性能，但这种收益仅在足够大的 LMs 中才能观察到。更令人担忧的是，几乎无法保证生成的理由与 LM 的预测一致或忠实地证明决策的合理性。在这项工作中，我们提出了 SCOTT，这是一种忠实的知识蒸馏方法，用于从规模大几个数量级的教师模型中学习一个小型、自洽的 CoT 模型。为了形成更好的监督，我们通过对比解码从大型 LM（教师）中引出支持黄金答案的理由，这鼓励教师生成仅在考虑答案时才更合理的标记。为了确保忠实的蒸馏，我们使用教师生成的理由以反事实推理目标来学习学生 LM，这防止学生忽略理由做出不一致的预测。实验表明，在产生相当的最终任务性能的同时，我们的方法可以生成比基线更忠实的 CoT 理由。进一步的分析表明，这样的模型在做决策时更尊重理由；因此，我们可以通过改进其理由来更多地提高其性能。

现有工作：

主要出于计算效率或任务性能的考虑，提议从大型 LMs 中学习推理。他们提示一个大型 LM （教师）为下游数据集生成理由，然后用于训练一个小型 LM （学生）。

存在问题：

LMs 容易产生幻觉，这意味着它们经常生成与输入无关的文本。因此，教师可能无法生成完全支持答案的主题相关理由。
学生可能将理由生成和答案预测视为两个独立的过程。这是由于问题和答案之间的虚假相关性，学生将其作为推理捷径。

上面的两个问题共同导致一个不忠实的学生，会生成空洞的理由，且可能做出与理由不一致的预测。

文中的方法：

方法设计：

分别从两个方面增强普通的知识蒸馏 KD 过程。

为了从教师那里引出更多主题相关的理由，我们提议利用对比解码，旨在将每个理由与答案联系起来。这种技术鼓励教师生成仅在考虑答案时更合理的标记，而不是在不考虑答案时也相当合理的标记。
对比解码技术：通过向教师模型提供扰动答案（空字符串或错误答案），计算每个标记的合理性增长，以获得更一致的教师模型，使其生成的理由更符合主题且能更好地支持黄金答案。
为了训练一个忠实的学生，我们要求学生进行反事实推理，即当理由导致不同答案时相应地进行预测：通过要求教师为抽样的错误答案生成理由来获得训练数据
反事实推理训练：通过将正确答案替换为错误答案获取反事实理由，训练学生模型更加忠实于生成的理由进行预测，避免忽略理由导致的不一致预测。

目标：

从大型语言模型中引出一致的理由，即那些能很好地证明黄金答案的理由，作为监督
训练一个自洽的学生模型来忠实推理，即根据其生成的理由进行相应的回答

具体描述：

数据集：

使用上文学习自动从教师模型中获取理由，而不是要求人类为每个问题 - 答案元组{q, a∗}标注一个理由。

思路是在提供新实例之前，用仅几个标注示例作为演示来提示一个冻结的语言模型作为教师。每个示例由从训练集中随机抽样的问题 q、黄金答案 a∗和一个人类标注的理由 r 组成，该理由说明 a∗为什么是正确的。

提示词的策略如上图。

训练：

在这项工作中，我们专注于自我合理化范式，其中学生首先生成一个理由，然后根据生成的理由预测答案。这与相关工作不同，后者进行事后合理化，即在预测答案后生成理由，或者进行多任务学习，将理由生成视为除答案预测之外的辅助任务。原因是后两种范式中理由的生成从设计上不影响决策，因此理由的忠实性首先无法得到保证。

蒸馏一个自相一致的学生模型：

常规的知识蒸馏中，如果老师模型输出了不相关的文本（幻觉），导致生成的理由不支持给定的答案，这种理由和答案的不一致性将被学生模型学到，从而误导学生认为答案预测和理由生成是相互独立的；学生模型会通过采取推理捷径来学习预测答案而不考虑生成的理由。

上述问题导致一个不可信的学生模型，其生成的理由不能始终如一地证明答案的合理性。

文章提出了两个相应的技术

对比解码

对比解码基于这样一个假设，即模型在生成理由时，应该更倾向于生成那些在考虑答案时更合理的标记。通过向教师模型提供扰动答案（可以是空字符串或错误答案），计算每个标记的合理性增长。

扩展了一种先前称为对比解码的技术，用于开放式文本生成

核心思想是搜索仅在考虑答案时更合理的理由标记，而不是在不考虑答案时也相当合理的标记。

向同一教师提供一个干扰答案a'来建模幻觉行为，然后获得给定答案 a ∗时任何标记 ti的合理性增长

设计了两种干扰答案的方式：将 a '设置为空字符串或除 a ∗之外的错误答案

反事实推理

反事实推理是一种假设在某些条件发生改变的情况下，结果会如何不同的思维方式。在本文的方法中，反事实推理用于训练学生模型更加忠实于理由进行预测。具体操作是将教师模型中原本的黄金答案替换为错误答案a^'，按照与之前相同的方式（例如使用相同的采样策略）让教师模型生成相应的反事实理由r^'。然后，训练学生模型在接收到反事实理由时，应该预测出与该反事实理由相对应的错误答案a^'。这样可以迫使学生模型不能仅仅依赖于问题和答案之间可能存在的虚假相关性，而是要真正根据理由进行预测，从而提高学生模型对理由的忠实性。

为了鼓励学生对其生成的理由进行忠实推理，训练学生进行反事实推理，即当理由导致不同答案时相应地进行预测，在学生被要求对同一问题根据理由给出不同的答案

实验结果：

对比解码可以导致一个更一致的教师，其生成的理由更支持黄金答案。
在更一致的理由 - 答案对上进行训练，学生学会更好地将答案预测与理由生成联系起来。
通过反事实推理作为辅助训练目标，学生学会不采用推理捷径，而是更加尊重理由。
尽管更加忠实，但我们的模型与基线模型的性能相当。
消融研究表明，尽管表现更好，但更大的学生模型更容易不一致。我们的方法无论学生模型的大小如何，都能稳健地纠正这种不一致性。
有了一个更忠实的学生，我们可以通过纠正其理由来更好地提高其性能，展示了我们的方法在模型改进中的效用。

总结

优点：对比解码能有效鼓励教师生成更符合主题、更具区分性的理由；反事实推理使得学生模型更加忠实于生成的理由进行预测。

缺点：对比解码增加了计算成本；方法侧重于提高理由忠实性而非性能提升。

原文地址：https://blog.csdn.net/m0_52911108/article/details/142882782

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：C语言与JAVA语言的语法区别
下一篇：使用 NumPy 进行数组操作的示例

Linux内核 -- 内核热重启之 kexec 工具的使用
在嵌入式设备上使用kexec进行热重启可以有效减少设备重启时间。这对于一些需要高可用性的系统非常有用，比如路由器、工业控制设备等。本教程将介绍如何在嵌入式设备上使用kexec，并详细说明可能出现的错误
阅读更多2024-10-15
数据分析基本架构知识点
可以是数据库（如MySQL、Oracle等）、文件（如CSV、Excel文件）、日志文件（记录系统活动）、网络数据（如网页抓取）等。- 是一个集成的、面向主题的、相对稳定的、反映历史变化的数据集合，如
阅读更多2024-10-15
【修订中】ffmpeg 知识点
brew install ffmpeg 时间有点长需要挂上代理。
阅读更多2024-10-15
服务器虚拟化
#热点
阅读更多2024-10-15
Harmony OS原生端渲染RTMP流功能实现
鸿蒙XComponent控件渲染rtmp流实现
阅读更多2024-10-15
unity 调整skinweight (皮肤权重)，解决：衣服穿模问题
最近遇到一个问题，人物模型的衣服穿模（就是露肉了），找了很久这个问题。好记性不如烂笔头！
阅读更多2024-10-15
使用tgz包下载安装clickhouse低版本
再次使用journalctl -u clickhouse-server查看是否有错误，发现又缺个目录。发现缺失了目录/var/log/clickhouse-server，我们直接创建目录并且赋权限。使
阅读更多2024-10-15
你知道C++多少——栈和队列
设计模式是一套被反复使用的、多数人知晓的、经过分类编目的、代码设计经验的总结。
阅读更多2024-10-15
鸿蒙开发案例：通过三杯猜球学习显示动画
表演者会将一个小球放在一个杯子下面，然后将三个杯子快速地交换位置，参与者则需要猜出最终哪个杯子下面有小球。本文将介绍如何使用HarmonyOS NEXT技术，如装饰器、状态管理和动画，来实现一个基于浏
阅读更多2024-10-15
【Linux基础】03 Linux环境基础开发工具使用
yumyum。
阅读更多2024-10-15