EMNLP 2024 | 大语言模型的内部知识机理

🕗 发布于 2024-11-21 02:01 人工智能 agi 深度学习 语言模型 AIGC

这是今年早期发表在EMNLP 2024 Findings上的一篇综述性论文：Knowledge Mechanisms in Large Language Models: A Survey and Perspective。

虽然论文尝试落脚点在以“Knowledge”为内涵去尝试阐释LLMs内部机制的这种“古典主义”思想上稍显过时且机械，但通过论文中对近几年LLMs在认知与推理这一研究领域的回顾，也更加系统性的审视了人们对LLMs为传统NLP领域带来的认知发展、探索与研究历程，我想其中的几项研究亦为后续围绕LLM模型及应用带来些许深刻的启示。

如文中根据Bloom这种古典的认知分类法将LLMs对知识的掌握与利用分为记忆、理解、总结和创造，也侧面印证了当前以GPT为代表的模型开发训练范式、演进发展历程、对真实世界数据持续的知识压缩与泛化再到以o1为代表的探索推理机制。

如在“知识记忆”方面，将transformer对知识的表征类比为人脑功能区域的模块化映射，并深入模型内部hidden参数层探索认知过程中对知识与模式的表征，我想这也为后续围绕LLMs内部的理论研究及模型可解释性研究打下了一定的基础。

在“理解与应用”维度，提供了某种更具象化的模型内部层次化机理对泛化过程的部分解释，如对模型内模块化区域表征的映射，再到Olsson等人在 Llama 和 GPT 模型中识别出“归纳头”，以及模型特定神经元对基础知识的表征。

在“知识创造”方面，从知识的连续性与离散性角度阐释LLMs创造知识的过程等。

另外，文中也从“知识进化”这一角度阐释了LLMs从pre-train→post-train等不同阶段模型对数据分布的学习与压缩进程，并尝试从中探明模型在训练进程中对数据延伸到浅层知识泛化的分布及跨训练阶段或新训练范式下知识由低到高层级抽象的泛化与利用机制（虽然论文对这一领域并未结合前沿成果深入分析，但我想这对于未来LLMs在处理更加复杂的推理任务甚至是对未知领域探索过程中的泛化迁移能力尤为重要）。

有趣的是，文中从“群体进化”这一新颖的角度阐释了在Multi-model或Multi-agent间的通信交互下群体对知识的进化与认知演变，我想不管对于当下流行的多智能体协作还是对未来探寻更高效人机协作过程来说，也是十分有意义的。

最后，文中提出了一种“暗知识”假说，我想这也预示着当前人类对世界发现与探索的局限及对未知领域的敬畏。

By 吕明

原文地址：https://blog.csdn.net/weixin_42619619/article/details/143871188

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：并查集---服务器广播
下一篇：ssm141餐厅点菜管理系统+vue(论文+源码)_kaic

论文阅读——Intrusion detection systems using longshort‑term memory (LSTM)
作者提出的 LSTM 模型能够有效区分正常网络流量和攻击流量。除此之外，模型结合主成分分析（PCA）和互信息作为降维方法。实验结果表明，基于 PCA 的模型（特别是使用2个主成分）在二分类和多分类任务
阅读更多2024-11-21
用源码编译虚幻引擎，并打包到安卓平台
本文详细介绍了如何用源码编译虚幻引擎，并将其打包到安卓平台。
阅读更多2024-11-21
Vue项目开发 element-UI 前端实现 1到10排列选择的按钮
在 Element UI 中，你可以通过来实现按钮的排列选择，例如让用户选择 1 到 10 之间的数字。为了实现这一功能，我们可以使用来动态生成 1 到 10 的按钮，并通过按钮点击事件来更新
阅读更多2024-11-21
Java EE 【知识改变命运】01计算机的一些知识点
计算机一些基础知识
阅读更多2024-11-21
04 —— Webpack打包CSS代码
加载器style-loader：把解析后的css代码插入到DOM。加载器css-loader ：解析css代码。直接引用，不用变量接收。
阅读更多2024-11-21
万能程序补丁工具 C# 源代码详解
万能程序补丁工具程序目的：搜索二进制可执行 EXE 或 DLL 文件分析的特征代码，替换特征代码，达到调试修正目标程序的功能。
阅读更多2024-11-21
【MySQL数据库】C#实现MySQL数据库最简单的查询和执行函数
C#和MySQL数据库是常见的数据交互，标准的查询和执行方法如下，做个记录。
阅读更多2024-11-21
单条推理转批量推理prompt
在每个线程中设置环境变量 CUDA_VISIBLE_DEVICES，以确保每个线程只使用指定的GPU。使用 concurrent.futures.ThreadPoolExecutor 来管理多线程任务
阅读更多2024-11-21
【AIGC】ChatGPT提示词Prompt解析：情感分析，分手后还可以做朋友吗？
【AIGC】在情感博弈中，最重要的是保持清醒的认知和优雅的态度。识别控制话术不是为了对抗，而是为了更好地保护自己的情感自由，实现真正的成长。
阅读更多2024-11-21
pycharm中配置pyqt5
PyQt和wxPython则提供了更多的控件和更强大的功能，适合于需要复杂用户界面的应用程序。pyQt生成的应用程序，引用图片通常是将资源文件装换为 python 文件，然后引用资源文件，而不能直接加
阅读更多2024-11-21

EMNLP 2024 | 大语言模型的内部知识机理

相关文章