知识编辑——大语言模型原理探索

🕗 发布于 2024-10-11 09:06 语言模型 人工智能 自然语言处理

作者：haha alalala

论文：Locating and Editing Factual Associations in GPT
链接：https://arxiv.org/abs/2202.05262

背景

以Transformer为架构的生成大模型，成为了NLP领域的主流，具有媲美人类的对话能力，显示出了卓越的事实生成效果。随之而来的问题是，大模型的工作原理是什么？大模型将这些事实存储在哪里？它是如何利用这些事实的？这篇论文尝试通过“causal intervention”去定位事实的位置，并尝试对事实进行修改。

本文的工作

这篇论文的工作分为两部分：事实定位以及事实修改

事实定位：通过三次不同的运行，确定不同参数部分对于事实预测的影响贡献。
1. 纯净运行：不对s，r构成的输入进行修改，并对运行时的hidden states的激活进行记录。
2. 污染运行：在输入后添加一个噪音，然后收集这个运行时hidden states的激活情况。
3. 污染后恢复运行：同样在输入后加入一个噪音，该噪音于污染运行时的相同。但是将某些hidden states恢复到纯净时的激活状态。
4. 将一个事实预测表示为三元组（s,r,o）主体，关系，客体。将s，r表示为一句话作为模型的输入去预测事实o。从而实现对事实的预测。
5. 模型的内部计算可以看作
6. 准备工作
7. 三次运行：纯洁运行，污染运行，污染后恢复运行
8. 通过污染后恢复运行即可筛选出对事实影响最大的隐藏状态。
事实修改
1. “A mathematical framework for transformer circuits.” 一文中观察到，MLP层被视为两层的key- value记忆。
2. “Rewriting a deep generative model”这篇论文中，可以通过解决受限的最小二乘法问题，将key-value对插入到记忆中。
3. 相关工作
4. ROME：即参考相关工作2，构造，将事实插入到模型中。训练时，对定位到的事实区域进行训练，其他部分冻结。

实验分析

事实定位
1. 图a中展示，对于所有的隐藏状态来看，发生强烈的因果影响（causal effects）的位置在主体词的最后一个token的早期位置，和预测前的最后一个token晚期位置。
2. 对于MLP部分来说，大部分的因果影响发生在最后一个主体词的早期位置。
3. 对于注意力部分来说，大部分的因果影响发生在最后一个token的晚期位置。
4. 指标
  Total Effect（TE）：,计算纯净版本和污染版本的量化差别。
  Indirect Effect（IE）：,计算恢复版本和污染版本的量化差别。
  其中分别指在纯净模式，污染模式，和l层第i个token被恢复后预测出事实o第概率。
  Average Indirect Effect (AIE)为上面的平均值，用来衡量不同隐藏状态对于结果的影响大小。
5. 分析注：这里的prompt就是输入。y轴从上到下是对输入补全后句子的token序列。x轴是模型的深度。
6. 猜想：中间层的mlp接受来自输入的编码，然后生成关于主题词的回忆的输出，然后由中间层的mlp对这些信息进行积累，最后通过高层之以利将总的信息复制到最后一个token。
事实修改
1. 数据集：编写了一个错误事实的数据集 ),相对于原来的正确事实在纯净模式具有更低的得分。
2. 指标
  Efficacy：编辑后，预测实体的能力（即），判断修改的成功。
  Generalization：对重写后的输入（即将s，r表述为另一句话）后的判断模型是否依旧能够理解。依旧计算。
  Specificity：判断对其他事实是否依旧有效，即是否依旧为真。也就是说判断编辑事实是否会影响到没有被编辑的事实。
3. 实验结果注：ES为得分，即的百分比；EM为的均方差。
4. 观察上面的图片可知，对于微调方法（FT）和其他知识编辑方法（KE，MEND）在两个模型的实验上，都不能达到很好的综合性能：这些方法在Efficacy(事实修改后的预测能力)和Generalization（输入重写预测能力，也可以理解为语义理解能力）都可以达到不错的成绩，但是Specificity（事实编辑后不影响其他事实的能力）却很差，也就是说这些微调和知识编辑的方法，修改事实是以影响其他事实为代价的。而ROME方法在不同的指标下都表现均衡。

局限性

ROME一次只能编辑单个事实，很难应用于大规模模型。编辑是有方向的入：“The iconic landmark in Seattle is the Space Needle”，“The Space Needle is the iconic landmark in Seattle”为两句话，修改时需要编辑两次。计算模型存储的事实被改变了，模型也能呢猜测新的事实，并且猜测可能是错误的。

这是否也可以看作一种微调？

备注：昵称-学校/公司-方向/会议(eg.ACL)，进入技术/投稿群

id：DLNLPer，记得备注呦

原文地址：https://blog.csdn.net/qq_27590277/article/details/142828447

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：C++读取大文件三种方法速度比较
下一篇：OceanBase管理着工具-oat安装

BUU刷题-Pwn-jarvisoj_typo(ARM符号表恢复技术,Rizzo,FLIRT)
通过IDA动态调试和符号表恢复找到目标函数,存在read函数溢出再通过pwndbg来计算栈溢出的长度是112再通过RopGadgets找到gadget,用来传参和调用函数由于是静态程序就一定会存在很多
阅读更多2024-10-11
【原创教程】电气电工23：电气柜的品牌及常用型号
好夫满有很多种类的机箱，EB精巧控制箱系列、KL接线箱系列、BKL不锈钢接线箱系列、GB挂壁箱系列、BGB不锈钢挂壁系列、GB立式控制箱系列、BGB不锈钢立式控制箱系列、AK豪华立式控制箱系列、BAK
阅读更多2024-10-11
C++学习笔记（54）
cout << "文件信息结构体" << fileinfo.filename << "(" << fileinf
阅读更多2024-10-11
黑马javaWeb笔记重点备份2:mybatis基础（注解方式）、数据库连接池概念、lombok使用
Lombok是一个实用的Java类库，可以通过简单的注解来简化和消除一些必须有但显得很臃肿的Java代码。通过注解的形式自动生成构造器、getter/setter、equals、hashcode、to
阅读更多2024-10-11
Go-知识泛型
除了内置的comparable和any两种类型可作为类型约束使用，用户还可以使用interface来定义类型集合。任意类型元素(如 int)近似类型元素(使用表示法，如int)联合类型元素(使用|表示
阅读更多2024-10-11
基于GoogleNet深度学习网络的手语识别算法matlab仿真
基于GoogleNet深度学习网络的手语识别算法，是一种利用卷积神经网络（Convolutional Neural Networks, CNN）来识别手语手势的方法。GoogleNet，也被称为Inc
阅读更多2024-10-11
低代码可视化-uniapp商城首页小程序-代码生成器
在设计一个小程序的首页时，包含轮播图、通知栏和商品列表这三个元素是非常常见且有效的布局方式。这样的设计既能够吸引用户的注意力，又能够高效地展示信息和商品。
阅读更多2024-10-11
Linux_kernel中断系统13
在系统启动 \ 热插拔和动态加载模块时，自动创建设备节点文件系统中的/dev目录下的设备节点都是由mdev创建的在加载模块时根据驱动程序，可以在/dev/目录下自动创建设备文件中断处理函数存在的疑虑
阅读更多2024-10-11
如何通过USB插口分清慢充和快充充电器
因此，不同的颜色代表着不同的速度和功能，大多数情况是这样设计的，当然也有一些厂商为了外观颜值改变接口颜色，没有完全统一的标准。目前大多数的USB接口以黑色和蓝色偏多，尤其是电脑端口，并且蓝色USB3.
阅读更多2024-10-11
Vue3的学习（二）路由
简单路由案例：配置路由规则，createWebHistory是指定路由的工作模式，routes中的每个元素都是一个配置好的路由，其中path是路由的路径，component是该路由对应的组件挂载app
阅读更多2024-10-11

知识编辑——大语言模型原理探索

背景

本文的工作

实验分析

局限性

相关文章