图结构感知的Transformer：一种新的图表示学习方法

🕗 发布于 2024-09-22 23:57 transformer 深度学习 语言模型 人工智能 自然语言处理

人工智能咨询培训老师叶梓转载标明出处

尽管图神经网络（GNNs）在处理图数据方面取得了显著成就，但它们在表达能力和捕获长距离依赖方面存在局限性。为了突破这些局限，研究者们开始探索将Transformer架构应用于图表示学习。在此基础上，瑞士苏黎世联邦理工学院的研究团队提出了一种创新的方法——Structure-Aware Transformer（SAT），旨在通过在自注意力机制中引入基于子图的表示，增强模型对图结构的感知能力，从而在计算注意力时能够显式地考虑节点间的图结构信息。

SAT

在传统的Transformer模型中，自注意力机制仅依赖于节点特征，忽略了节点在图中的结构位置和邻域信息。研究者提出的结构感知自注意力机制，通过引入子图表示来增强模型对图结构的感知能力。

图 2 展示了一个使用k-subgraph GNN提取器作为其结构提取器的SAT层的概述。结构提取器生成结构感知的节点表示，这些表示被用来计算Transformer层中的查询（Q）和键（K）矩阵。具体为k-subgraph GNN提取器首先提取以每个节点为中心的k-hop子图（这里，k=1），然后使用GNN在每个子图上生成节点表示，利用完整的子图信息。

结构感知自注意力函数不仅考虑了节点特征的相似性，还考虑了子图之间的结构相似性。这使得它能够生成比原始自注意力更富有表达性的节点表示。

公式 (5) 定义了结构感知注意力函数 SA-attn(v)，其中 SG(v) 表示以节点 v 为中心的子图，与节点特征 X 相关联，κgraph 是可以比较一对子图的核函数。这种自注意力不再是节点排列不变的，而仅在节点的特征和子图相同时才不变，这是理想的属性。

公式 (6) 提供了 κgraph 的一种形式，它包含了一大类富有表达性且计算上可行的模型。

在定义了结构感知自注意力函数之后，Structure-Aware Transformer的其他组件遵循Transformer架构。如图 2 所示，自注意力函数后面是一个跳跃连接（skip-connection）、一个前馈网络（FFN）以及FFN前后的两个归一化层。另外跳跃连接中还包括了度因子，这有助于减少高度连接的图组件的压倒性影响。

公式 (9) 展示了如何结合自注意力和节点的度来更新节点表示。

对于图属性预测，有多种方法可以将节点级表示聚合成图表示，例如通过取平均或求和。或者，可以使用虚拟 [CLS] 节点的嵌入，该节点附加到输入图上，与其他节点没有连接。

尽管结构感知自注意力已经能够感知结构信息，但大多数绝对编码技术仅是位置感知的，因此可以提供补充信息。实际上结合使用可以进一步提高性能。研究者选择使用随机游走位置编码（RWPE），尽管也可以使用其他任何绝对位置表示，包括可学习的表示。

定理 1 表明，如果两个节点的子图表示相似，那么它们在结构感知注意力之后的表示也会相似。这表明结构感知编码可以生成相似的节点级表示，即使在不同图中，只要它们具有相似的局部结构。

由于结构感知注意力的设计独特，依赖于子图结构提取器，因此可以研究输出表示的表达性。定理 2 表明，结构感知注意力层的节点表示至少与其子图表示一样具有表达性。

通过这些创新，Structure-Aware Transformer在图表示学习领域提供了一种新的视角，有望推动相关技术的发展。

想要掌握如何将大模型的力量发挥到极致吗？叶老师带您深入了解 Llama Factory —— 一款革命性的大模型微调工具。实战专家1小时讲解让您轻松上手，学习如何使用 Llama Factory 微调模型。

评论留言“参加”或扫描微信备注“参加”，即可参加线上直播分享，叶老师亲自指导，互动沟通，全面掌握Llama Factory。关注享粉丝福利，限时免费录播讲解。

LLaMA Factory 支持多种预训练模型和微调算法。它提供灵活的运算精度和优化算法选择，以及丰富的实验监控工具。开源特性和社区支持使其易于使用，适合各类用户快速提升模型性能。

实验

实验中，SAT模型与多种GNNs进行了比较，包括GCN、GraphSAGE、GAT、GIN、PNA、DeeperGCN和ExpC等。同时，也与最近提出的多种基于图的Transformer模型进行了比较，包括原始的Transformer与RWPE、Graph Transformer、SAN、Graphormer和GraphTrans等。

在表1和表2中，SAT模型与其他GNNs和Transformers的性能进行了比较。结果显示，SAT在所有数据集上一致地超越了现有的最先进方法，证明了其结合GNNs和Transformers优势的能力。特别是在CODE2数据集上，尽管参数数量相对较少且仅进行了最小的超参数调整，SAT模型仍然大幅度超越了其他SOTA方法。

表3总结了SAT相对于其使用的稀疏GNN的性能，这些GNN用于提取子图表示。在不同的GNN选择中，两种变体的SAT（k-subtree和k-subgraph SAT）始终显著提高了基础GNN的性能，这表明结构感知方法的表达能力得到了显著提升。

超参数k的选择对SAT模型的性能有显著影响。图 3a 展示了在ZINC数据集上，使用PNA和不同k值的k-subtree和k-subgraph提取器时，测试MAE如何变化。结果表明，包含结构信息可以显著提高性能，k=3时性能最佳。与仅使用绝对位置编码的Transformer相比，结构感知注意力在性能上取得了显著提升，如图 3b所示。

除了性能提升外，SAT模型还提供了比仅具有绝对位置编码的经典Transformer更好的模型解释性。通过在Mutagenicity数据集上训练SAT模型和具有CLS读出的Transformer，并可视化[CLS]节点与其他节点之间的注意力分数，如图 4所示。SAT模型能够识别出更多与突变性相关的化学基团（例如NO2和NH2），并且注意力分数更稀疏、更具信息性。

这些实验结果不仅证明了SAT模型在图表示学习任务中的有效性，还展示了其在模型解释性方面的优势，为未来的研究和应用提供了有价值的参考。

https://arxiv.org/pdf/2202.03036v3

GitHub - BorgwardtLab/SAT: Official Pytorch code for Structure-Aware Transformer.

原文地址：https://blog.csdn.net/weixin_44292902/article/details/142381110

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：Windows下批量重命名文件【bat实现】-两个小问题
下一篇：力扣中等 153.寻找旋转排序数组中的最小值

多个点安装到点b的距离从小到大排序
多个点安装到点b的距离从小到大排序
阅读更多2024-09-23
UE5学习笔记22-武器瞄准和武器自动开火
绘制武器准心，自动开火，瞄准武器时缩放视场角，复制运动的通知函数，瞄准时准心变色
阅读更多2024-09-23
面试题（二）
综上所述，选择最优的通信机制要考虑具体的应用场景、性能需求、同步要求和实现复杂度等因素。没有绝对的“最优”方案，只有适合的解决方案。在不同的应用场景中，通信机制的“最优”取决于具体需求和环境。（Int
阅读更多2024-09-23
2024/9/21 leetcode 21.合并两个有序链表 2.两数相加
将两个升序链表合并为一个新的链表并返回。新链表是通过拼接给定的两个链表的所有节点组成的。[][0]l2。
阅读更多2024-09-23
浅谈Linux中文件与目录的ACL
setfacl是 Linux 系统中用于设置文件和目录的 ACL（访问控制列表）的命令。它允许为特定的用户或用户组指定访问权限，提供比传统的文件权限机制更灵活的权限控制。下面是setfacl的常用选项
阅读更多2024-09-23
Maven-五、属性
使用maven中的属性可以来简化我们的配置工作。在pom文件中可以使用**标签设置属性，属性名自定义,然后可以在使用${属性名}**文件中引用自己定义的属性。使用属性进行配置，在后来修改相关配置时直接
阅读更多2024-09-23
FreeRTOS下UART的封装
FreeRTOS下UART的封装_哔哩哔哩_bilibili
阅读更多2024-09-23
find命令详解
find命令用于在指定的目录及其子目录中查找符合条件的文件和目录。它支持复杂的搜索条件组合，并能对搜索结果执行各种操作，是系统管理员和开发人员日常工作中不可或缺的工具。
阅读更多2024-09-23
网络层协议 —— IP协议
对于网络层IP协议的学习，我们不能局限于IP协议本身，而应通过学习IP协议建立对整个网络的宏观认识。不同主机进行网络通信时，需要能够找到对方，网络层的IP协议便提供了这种能力，主要依靠IP地址。网络的
阅读更多2024-09-23
C++ Linux IPC进程通信-消息队列MQ
相比于共享内存和管道,消息队列能够实现指定的消息格式和排序,能实现更复杂的通信。MQ的复杂度较高,维护成本增加.如果MQ挂了,主服务直接挂了.
阅读更多2024-09-23

图结构感知的Transformer：一种新的图表示学习方法

SAT

实验

相关文章