【论文阅读】主动推理：作为感知行为的理论

🕗 发布于 2024-11-18 18:40 论文阅读 人工智能 学习

文章目录

主动推理：作为感知行为的理论

未完待续

主动推理：作为感知行为的理论

Active inference as a theory of sentient behavior

摘要

这篇文章综述了主动推理的历史和未来——一个关于行动和感知的统一视角。主动推理是基于这样一种观点，即有知觉的行为取决于我们的大脑对内部模型的隐性使用，以预测、推断和指导行动。我们的重点是（基本）感知理论的概念根源和发展，而不是遵循严格的时间顺序叙述。我们追溯了从Helmholtzian关于无意识推理的思想到当代对行动和感知的理解的演变。在此过程中，我们触及了相关的观点，主动推理的神经基础，以及未来发展的机会。这一发展的关键步骤包括制定预测编码模型和神经元信息传递的相关理论，使用顺序模型进行规划和策略优化，以及层次（暂时）深层内部（即生成或世界）模型的重要性。主动推理已被用于解释解剖学和神经生理学的各个方面，在异常精确控制方面提供精神病理学理论，并统一现有的心理学理论。

我们期待所有这些领域的进一步发展，并注意到在神经科学之外应用主动推理的令人兴奋的早期工作。这不仅预示着生物学的未来，还预示着机器人、机器学习和人工智能的未来。

1.引言

心理学家和神经科学家越来越喜欢把大脑看作是“预测机器”，它学习生活世界的内部（即生成）模型——以及其行动的后果——以理解感觉，预测当前情况将如何展开（即学习和感知），并以一种有目的的方式行动（即，行动选择，探索-利用，计划，等等）。这个想法以几种形式出现，包括贝叶斯大脑，预测大脑，预测处理，预测编码，主动推理和自由能原理，仅举几例。

在这里，我们批判性地回顾了这一观点在心理学和神经科学等领域的起源、范围和影响。为了概念清晰，我们特别关注主动推理：一种知觉行为的规范理论，它形式化了“预测大脑”的想法，并提供了其计算和神经元过程的第一原理。

虽然主动推理仍然相对年轻，但它对各个学科的影响越来越大。它越来越多地被（例如）对支持预测和预测误差的神经回路感兴趣的神经科学家使用(Bastos等人，2012；Parr & Limanowski， Rawji等，2021；Parr & Friston, 2018；Walsh et al, 2020)；心理学家对我们在决策过程中如何处理不确定性和认知努力感兴趣(Parr et al, 2023；Rens等人，2023)，对行动-感知、探索-利用和高级认知机制感兴趣的建模者(Friston， FitzGerald等人，2017；Friston， Lin等，2017；Pezzulo等人，2015年，2018年)，对理解精神病理学中的异常行为感兴趣的临床医生(Maisto等人，2021；Van den Bergh等人，2017)，对世界模型和目标导向行为的自监督学习感兴趣的机器人专家(Ahmadi & Tani, 2019；Taniguchi et al, 2023)和神经哲学家(Clark, 2015; Hohwy, 2013)。

这种广泛的应用是有吸引力的，但有可能造成一种支离破碎的局面，以及对其最初承诺和概念含义的一些不确定性。这篇简短的手稿的目的是帮助研究人员使用（或感兴趣的）预测编码和主动推理来“连接这些点”，并在不断增长的文献中定位自己。尽管有不同的工作路线——强调主动推理的不同方面——但这些应用程序都基于同一个核心原则。为了突出这些核心原则，我们将着眼于主动推理的历史和概念起源，以说明其核心原则是如何引入的；然后简要考虑主动推理的范围是如何扩展到几个学科的，最后展望未来的发展。鉴于这种处理的简短性，我们无法提供主动推理的完整介绍。相反，我们在（Parr et al, 2022）中提供了叙述的概述，感兴趣的读者可以参考。

在下一节中，我们将简要讨论早期预测和基于行动的认知观点中主动推理的概念（和历史）根源。然后，我们回顾了主动推理的一些关键发展，重点介绍了一些具有里程碑意义的论文，这些论文解释了主动推理是如何从单一原则（即自由能最小化）中产生的。接下来，我们将考虑它在感知、行动、计划等方面的范围。这篇简短的回顾有助于我们指出，主动推理为几个认知主题和理论提供了一个统一的视角，并跨越了从概念到神经的理解水平。最后，我们简要地强调了一些有前途的研究方向，这些方向可以扩大主动推理的范围，并可能对心理学和神经科学产生影响。

2. 主动推理的概念和历史根源

主动推理植根于认知科学的各种早期理论（以及一些不一定使用“认知”标签的领域）。一个根源是，大脑携带着一个环境的小规模模型，并利用它（在对环境采取行动之前）在心理上模拟假设行为，而非对环境直接采取行动（Craik, 1943）。这个观点是认知科学的基础。例如，托尔曼（Tolman, 1948）提出，人类、啮齿动物和其他动物通过首先学习心智模型或“认知地图”来找到迷宫中的路，而不是像行为主义公式所假设的那样，通过考虑他们之前的导航行为中哪一个获得了最多的奖励。

另一个根源是（Helmholtz, 1866）的观点，即感知是一种基于内部生成模型的（无意识的）推断——它使用循环的（自上而下和自下而上的）逆向处理流，而不是自下而上地将外部感觉转导到内部表征（以及后来的行动）。这一观点后来在心理学（Gregory, 1968, 1980）和计算神经科学中得到发展；由此产生了“贝叶斯大脑”假说（Doya等人，2007），并提出了预测编码的公式，作为大脑中感知即推理的可能神经生物学实现(Friston, 2005；Rao & Ballard, 1999)。除了感知之外，其他认知功能后来被描述为推理，即规划作为推理（Botvinick & Toussaint, 2012）。

另一个“根源”是控制论的观点(Miller et al, 1960；Powers,1973;Wiener（1948）认为，目标导向的行动首先是建立一个期望状态或观察（例如，感觉温暖），然后监测偏好状态和感觉状态（例如，感觉过度温暖）之间的差异——现在被称为“预测误差”，然后选择一个减少这种差异的行动过程——“行动”是一个简单的词，可以包括任何控制外部刺激的手段；从简单的自主反射(例如，体温调节)到复杂的计划（例如，参观自己最喜欢的冰淇淋店）。该领域的一个关键成果——与上述亥姆霍兹观点一致——是（Conant & Ashby, 1970）的“良好调节者定理（Good regulator theorem）”，该定理认为，有效的调节体系必须是它们所调节的环境的模型。同样，在心理学中，观念运动理论提出，行动控制本质上是预见性的，行动是由预期的后果或结果选择和控制的，而不是通过刺激反应(Hoffmann, 2003; Hommel, 2003; James, 1890)。

除了控制论，还有其他有影响力的观点强调了行为和生命本身的适应性调节的中心地位。一个例子是，生物体是自创生系统，它们为自己的存在创造条件。最近，这个想法被框定为“不言自明”（Hohwy 2016）-也就是说，生物寻找为它们继续存在提供证据的感觉。直观地说，感觉体温在37℃左右提供了更多的证据表明我们仍然活着，而不是体温远离这个值。自创生的概念催生了哲学中的主动方法（autopoiesis）（Maturana & Varela, 1980）。从另一个角度来看，有人假设生物体的中心命令是维持生理稳态（即通过反射性行为纠正偏离首选生理状态的行为）和基本命令的调节(Cannon, 1929) -但更现代的理论强调生理调节从根本上说是预期的（anticipatory）（即适应anticipatory）（Sterling, 2012）。许多研究人员提出，闭环适应性调节（而不是刺激-反应）不仅是理解生理学的关键，而且（潜在地）是理解所有认知过程的关键(Cisek, 1999；Pezzulo & Cisek, 2016)。

最后，另一个根源是认知过程，如学习、感知和决策，需要生物体与环境的积极参与。这种以行动为导向的观点的一个早期例子是吉布森的观点，即感知事物包括看到对它们做什么或不做什么，即感知启示(perceiving affordances)（Gibson, 1979）。最近，各种研究人员提出了认知科学和神经科学中“务实转向”的必要性，以及认识到行动作为我们认知的重要组成部分的重要性的必要性(Buzsaki, 2019；Cisek & Kalaska, 2010；Cisek & Pastor-Bernier, 2014；Engel et al, 2016；Lepora & Pezzulo, 2015；O 'Regan & Noe, 2001)，而不仅仅是一种报告“中心”决策的方式，正如传统（序列）理论所假设的那样。

有趣的是，这些想法都暗示着大脑从被动到预测的转变。当一个反应性的大脑等待传入的刺激时，一个预测和活跃的大脑预测外部事件（例如，预测编码）并积极收集证据（即，主动感知和主动学习）来理解世界。反应性的大脑根据过去和现在（例如，强化的历史和当前的线索）选择行动，而预测性的大脑则积极地想象其首选的未来，然后通过行动（例如，以目标导向的方式行动）使其发生。反应性大脑维持体内平衡，而预见性大脑预测需求并执行预期的调节（或适应）行为。

所有这些（以及其他）观点都有助于提高大脑和认知的预测性和行动性观点的重要性。然而，这些观点在某种程度上彼此脱节，并与不同的研究传统联系在一起，这些研究传统有时被视为彼此冲突（例如，亥姆霍兹和吉布森的传统）。主动推理的一个好处是，它有助于统一并因此推进这些传统，我们将在以下章节中解释。

3. 主动推理的规范视角—以及它的发展历程

主动推理提供了一个规范的观点，统一和推进大脑和行为的预测和行动的观点。它通过强调几个明显不相关的解释——由早期的理论识别出来——简约地源于一个假设，即生物体服从一个单一的命令：即，它们的行为是为了最小化它们的意外(surprise)，或者更正式地说，它们的变分自由能(variational free energy)。
变分自由能最小化的数学计算超出了本文的讨论范围；我们建议感兴趣的读者参考（Parr et al, 2022）。在这里，我们通过简要回顾（非按时间顺序）选定的具有里程碑意义的论文并将它们与早期理论联系起来，来介绍该理论的关键概念。

主动推理从一个简单的考虑开始：生物为了维持它们的存在和完整性，都需要保持在一组有限的特征状态中，这些特征状态基本上定义了它们在生态位中的位置；例如，鱼离开水就不能生存。使用贝叶斯推理的词汇，对鱼来说，离开水是一种“令人意外”的状态。很明显，鱼应该避免这种意外，并且这个想法可以推广到生物体必须避免意外状态(Friston et al.，2010）。如果它们不这样做，它们就不会活太久。另一种看待这个问题的方式是，一切事物（包括我）都是由处于某种特征（吸引）状态集来定义的。相反，我是由我不可能处于的状态来定义的。这些都是令人意外的状态。

一个计算上易于处理的最小化意外的解决方案是最小化一个信息论的量-变分自由能-这是两个东西的函数：一个生成模型（即，一个描述感觉是如何产生的统计模型）和观察到的感官数据。这意味着，一个活的有机体必须配备一个生成模型——或者用Craik的术语来说，是一个小规模模型——来预测世界产生的感觉（以及有机体在其中的位置）。在贝叶斯术语中，生成模型包括两件事：隐藏（即未观察到的）感兴趣变量的先验，以及将隐藏变量映射到可观察变量的似然函数（Bishop, 2006）。如图1所示，生物体对世界的生成模型及其与生成过程的关系示意图：产生观察结果的真实环境的偶然性，是生物体无法获得的。
在这里插入图片描述

图1. 主动推理中的生成模型与生成过程。这张图——摘自（Parr et al, 2022）——说明了脑功能主动推理理论的结构。我们的世界根据从隐藏状态（x *）产生观测值(y)的一些动态过程进化。我们的内部模型根据假设的隐藏状态(x)来解释观察结果。基于我们的观察，我们对这些状态的推断然后驱动干预产生我们感觉的过程的行动(u)。

简而言之，一个生物体可以通过使它的生成模型的预测与它观察到的数据对齐来最小化变分自由能。在不同的设置中，这种最小化以各种方式描述，例如最小化意外、预测误差或模型和世界之间的偏差。所有这些都等价于在特定假设下最小化变分自由能。

有趣的是，从生成模型和数据中得出的预测可以通过两种方式实现：通过改变模型预测和改变观察到的数据。前者对应于如果智能体的信念不能很好地解释数据，则修改信念（在隐含变量的概率分布的技术意义上使用）。这正是（Helmholtz, 1866）的知觉推理观。后者对应的是在这个世界上采取行动，改变接下来要采样的数据——使它们更像有机体先前的预测。后一种关于行动的观点——以及它对预期结果的依赖——与控制论高度一致(Miller et al, 1960；Powers,1973;Wiener, 1948)和思想运动理论(Hoffmann, 2003；霍梅尔,2003;詹姆斯,1890)。

总之，改变关于数据原因的信念（即感知）和改变数据（即行动），是自由能最小化的两个方面。在正式的术语中，它们映射到其两个组件：最小化分歧和最大化证据，见图2。认识到行动和感知可以在单个形式的命令下统一——即自由能的最小化——是主动推理的关键创新之一，这有助于整合并扩展上述早期理论。
在这里插入图片描述

感知和行动在变分自由能最小化中起互补作用。这张图-来自（Parr等人，2022）-通过自由能(F)强调了行动和感知之间的关系。感知涉及通过改变我们对状态(x)的信念(Q)来最小化自由能。这有效地最小化了我们的信念与给定感官数据(y)的这些状态的概率之间的分歧（DKL）。行动通过改变依赖于感官数据的自由能部分来最小化自由能，值得注意的是，我们内部模型下数据的证据或概率。

关于神经实现，最广泛接受的假设之一——关于大脑如何实现感知推断——是预测编码（Rao & Ballard，1999）。图3显示了预测编码方案在大脑皮层中可能的表现形式。在这个预测编码网络中，推理通过分别沿自上而下和自下而上的路径传播预测和预测误差，并且通过最小化所有级别的预测误差来实现。有趣的是，预测编码可以作为变分自由能最小化的特殊情形（Friston，2005）被推导出来。
虽然预测编码是一种感知模型，但它可以很容易地扩展到包括最小化自由能的作用（如上所述）。从预测编码到主动推理的转变可以通过为预测编码网络配备简单的运动反射来实现。在这个视角中，运动系统通过产生本体感觉预测（与标准预测编码产生的外周预测相同）——而不是运动命令，如通常所建议的那样——而这些本体感觉预测是通过运动反射实现的 (Adams等，2013年) 。
随后，该理论被扩展以建模自主控制（Barrett & Simmons，2015；Pezzulo，2014；Seth等，2012）。一般的想法是，自主控制可能通过产生内感预测（即稳态设定点）并然后通过自主反射来实现它们，在很大程度上类似于运动控制可能通过产生本体感觉预测并通过运动反射来实现它们。这种主动推理的发展有助于将它与适应控制理论（Sterling，2012）联系起来，并为更好地理解我们对内部环境建模和控制的能力铺平了道路，不仅仅是外部环境。这项研究支持了对精神病理学的新型方法——作为内感处理缺陷的结果（Paulus等人，2019年）。
到目前为止，我们讨论了使用生成模型的主动推理。这些模型描述了在连续时间内展开的过程（例如，预测编码网络）并使用连续变量（即，动力系统和状态空间模型的形式框架）。然而，许多认知问题可以在不同的层面上表征：作为序列离散决策。这些包括需要在心理学实验中选择离散响应、扫视目标或离散环境中的导航轨迹的问题（ Friston et al., 2017 , Friston et al., 2017 ）。这些问题可以通过使用离散变量的生成模型（以及部分可观察马尔可夫决策过程的形式框架）在主动推理中进行建模。

除了上述两个组件（先验和似然函数）之外，离散时间主动推理的生成模型通常还包括第三个组件：转换函数，它描述了隐藏状态根据智能体的动作（或序列，称为策略）而变化的方式。至关重要的是，这些生成模型具有时间深度，并提供了简单模型所不具备的新颖功能：即规划。简而言之，规划涉及使用生成模型来预测不同策略的后果，根据预期在未来最大限度地减少自由能源的程度对策略进行评分，然后（经过一些简化）选择最佳策略。

这个规划过程产生了一个新的量——期望自由能——这是主动推理用来评估（并分配先验）策略的函数，它与迄今为止讨论的变分自由能的概念不同（ Friston等人， 2017 ）。期望自由能的概念对于开发诸如（有界）决策、规划、探索-利用和好奇心等事物的主动推理模型非常有用（ Friston 等人，2017 年； Parr 和 Pezzulo，2021 年； Schwartenbeck 等人）等，2019 ）。这是因为这个概念比其他正式框架（例如经济理论和强化学习）中使用的常见优化目标更丰富。这是因为期望自由能共同考虑了实用主义的命令（效用最大化）和认知的命令（信息增益或不确定性的解决）。事实上，如图 4 所示，通过删除其中的一项或多项，可以将预期自由能映射到各种其他形式概念（例如，贝叶斯意外、风险敏感控制、期望效用理论）。
主动推理是一种可应用于解决各种认知过程的通用方案。至关重要的是，主动推理的运作方式在所有问题中都是相同的：不同的是生成模型，它是特定于任务的。这意味着，通过设计适当的生成模型，可以用相同的方法解决各种认知任务，并从主动推理的规范角度转向具有生物学合理性的具体实现（Friston et al., 2017，Parr & Friston，2018）。

在这里，一个有效的例子可能会有所帮助。为了说明我们迄今为止概述的一些原则，我们将考虑如何开发认知神经科学中一种普遍任务的模型——认知神经科学中的延迟期眼动任务。这是一项相对简单的任务，可以由人类和一些动物执行，旨在探测工作记忆功能（Funahashi 等人，1989）。任务顺序如下。首先，屏幕上出现一个十字架，我们的受试者保持注视在这个十字架上。然后目标出现在屏幕边缘的几个可能位置之一，但我们的拍摄对象仍然保持注视状态。然后目标消失，在“延迟期”之后，刺激似乎表明受试者应该向目标位置进行扫视眼球运动。此任务的成功执行依赖于在延迟和响应阶段保留目标位置的记忆。

未完待续…

原文地址：https://blog.csdn.net/ffffflk/article/details/143726747

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：【C++ 算法进阶】算法提升十七
下一篇：用 Python 从零开始创建神经网络（八）：梯度、偏导数和链式法则

第2章-PostgreSQL 15安装及登录
PostgreSQL数据库Windows及Linux下安装操作
阅读更多2024-11-18
操作系统学习笔记-5 传输层
传输层TCP协议，UDP协议
阅读更多2024-11-18
代码随想录第46期单调栈
这道题主要是单调栈的简单应用。比上一题多了个处理循环的操作。这道题同样是一个双指针问题。与上一题类似，但是更麻烦些。也可以是直接扩充数组。
阅读更多2024-11-18
常见长选项和短选项对应表
【代码】常见长选项和短选项对应表。
阅读更多2024-11-18
学习日记_20241115_聚类方法（DBSCAN）
学习日记，聚类方法DBSCAN
阅读更多2024-11-18
chatgpt训练需要什么样的gpu硬件
**显存容量**: 训练大型语言模型需要处理大量的数据和模型参数，因此需要大显存。- **散热系统**: 高性能GPU在训练过程中会产生大量的热量，因此需要良好的散热系统来保证GPU的稳定运行。- *
阅读更多2024-11-18
Redis设计与实现学习笔记第十八章发布与订阅
因为服务器状态中的pubsub_patterns链表记录了所有模式的订阅关系，所以为了将消息发送给所有与channel频道相匹配的模式的订阅者，PUBLISH命令要做的就是遍历整个pubsub_pat
阅读更多2024-11-18
C++和OpenGL实现3D游戏编程【连载18】——加载OBJ三维模型
以前我们加载过立方体木箱，立方体的顶点数据都是在程序运行时临时定义的。但后期如果模型数量增多，模型逐步复杂，我们就必须加载外部模型文件。这节课我们就先了解一下加载OBJ模型文件的方法，这样可以让编程和
阅读更多2024-11-18
LeetCode题解：18.四数之和【Python题解超详细】，三数之和 vs. 四数之和
LeetCode题解：18.四数之和【Python题解超详细】，四数之和 vs. 三数之和的异同，求解五数之和。四数之和：给你一个由n个整数组成的数组nums，和一个目标值target。请你找出并返回
阅读更多2024-11-18
C/C++学习-常量指针&指针常量
指针常量指的是指针本身是一个常量，也就是说，一旦指针被初始化指向某个地址，它的值就不能再改变，但是它可以用来修改它所指向的数据（前提是该数据不是常量）。当我们在C或C++中使用一个常量指针指向常量数据
阅读更多2024-11-18