[论文笔记] 自对齐指令反翻译：SELF-ALIGNMENT WITH INSTRUCTION BACKTRANSLATION

🕗 发布于 2024-07-07 15:29 深度学习 人工智能

https://arxiv.org/pdf/2308.06259

这篇论文介绍了一种名为“指令反向翻译”（instruction backtranslation）的方法，用于通过自动标记人类书写的文本和相应的指令来构建高质量的指令跟随语言模型。这里是一个通俗易懂的解释：

一、背景

通常，训练一个高质量的指令跟随语言模型需要大量的手工标注的数据，这些数据非常昂贵且耗时。为了解决这个问题，作者提出了一种自动化的方法，通过“自我增强”和“自我筛选”来生成和选择高质量的训练数据。

二、方法概述

整个方法分为两个主要步骤：

自我增强（Self-Augmentation）：
- 首先，使用一个小量的种子数据（即已标注好的指令和输出对）来微调一个基础语言模型（例如LLaMa）。
- 接下来，用微调后的模型生成候选的训练数据，这些数据来自未标注的文本（称为“增强数据”）。
自我筛选（Self-Curation）：
- 在初始微调模型的基础上，选择高质量的增强数据用于下一次迭代的训练。
- 经过多次迭代，每次选择出更高质量的数据，最终得到一个更强的模型。

三、流程图解释

原文地址：https://blog.csdn.net/Trance95/article/details/140233823

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：LLama-Factory大模型训练框架，基于自己数据集微调qwen7B模型实战
下一篇：HTML5使用＜blockquote＞标签：段落缩进

【学习日记】notebook添加JAVA支持
作者是个大学生这个专栏主要收集课时常用的软件以及女朋友上课用的软件的教程。需提前配置好java环境本篇仅对添加支持进行说明。新开了gitcode 用于上传安装包。解压进入解压后目录复制文件地
阅读更多2024-11-15
Docker与Podman全面比较
Docker和Podman作为两大容器引擎，各自拥有独特的特点和优势。本文将从溯源、特点、技术优势、应用实例和技术前景等方面对Docker和Podman进行全面比较。
阅读更多2024-11-15
算法学习blog：day2 继续记日记
4. 明日计划：至少五道题，并且要学会并实现今天的三道题，看这五道题的思路解法，下一天进行实现优化。除此之外pdf粗略看到了20页，明天继续看，后面才是重点。1.做了三道PAT 76，77，78，差一
阅读更多2024-11-15
基于Python的网上银行综合管理系统
【2025最新】基于python+django+vue+MySQL的网上银行综合管理系统，前后端分离。
阅读更多2024-11-15
自定义注解+拦截器+jwtFilter实现权限控制
GetterSUPER_ADMIN(1, "超级管理员"),SYSTEM_ADMIN(2, "系统管理员"),DOMESTIC_CONSUMER(3, &quo
阅读更多2024-11-15
前端面试题整理-vue指令开发
在 bind 钩子中，我为绑定的元素添加了一个点击事件监听器，当元素被点击时，执行复制操作。我当时在开发点击复制文本的功能，我有很多个元素都想有这个功能，但是我又不想每个元素都绑定一个 onClick
阅读更多2024-11-15
在使用ipc通信时，在渲染进程的Vue + TypeScript 开发过程，给window对象添加属性并赋值时，发生报错解决方法
在使用ipc通信时，在渲染进程的Vue + TypeScript 开发过程，给window对象添加属性并赋值时，发生报错解决方法
阅读更多2024-11-15
GESP4级考试语法知识（贪心算法（四））
GESP4级考试语法知识（贪心算法（四））
阅读更多2024-11-15
20241114在飞凌的OK3588-C的核心板上跑Linux R4时通过iperf3测试以太网卡的实际网速
创建一个eth0配置文件，配置文件的路径为：/etc/network/interfaces.d/eth0,设置动态ip的配置文件。虽然飞凌的OK3588-C的核心板使用的是千兆网卡RTL8211
阅读更多2024-11-15
【EmbeddedGUI】脏矩阵设计说明
脏矩阵设计说明
阅读更多2024-11-15

[论文笔记] 自对齐指令反翻译：SELF-ALIGNMENT WITH INSTRUCTION BACKTRANSLATION

一、背景

二、方法概述

三、流程图解释

相关文章