自监督行为识别-时空线索解耦（论文复现）

🕗 发布于 2024-10-15 09:46 php 开发语言

自监督行为识别-时空线索解耦（论文复现）

本文所涉及所有资源均在传知代码平台可获取

文章目录

- 自监督行为识别-时空线索解耦（论文复现）
- - 引言
  - 论文概述
  - 核心创新点
  - 双向解耦编码器
  - 跨域对比损失的构建
  - 结构化数据增强
  - 项目部署
  - - 准备工作
    - 数据准备
  - 生成数据
  - - 训练&测试
    - - 训练
      - 测试
  - bug修改

引言

自监督骨架行为识别是一种利用未标记的骨架数据进行行为识别的方法。传统的行为识别方法通常需要大量标记好的数据进行训练，但标记数据的获取成本高昂。自监督学习通过设计自动生成标签的任务，可以在缺乏标记数据的情况下进行训练

在这里插入图片描述

在自监督骨架行为识别中，骨架数据可以通过传感器或深度摄像头等设备获取。这些数据包含了人体关节的位置和运动信息。自监督学习任务的关键是设计一种能够从未标记的骨架数据中自动生成标签的方法。

在训练过程中，使用未标记的骨架数据进行自监督学习，生成伪标签。然后，将生成的伪标签用于监督骨架行为识别模型的训练。通过这种方式，自监督学习可以在缺乏标记数据的情况下，提供一种有效的方法进行骨架行为识别。

那么目前自监督骨架行为还面临哪些挑战呢？

挑战1. 时空信息的混淆

编码器负责将输入映射到可以进行对比的潜在空间。而之前的大多数方法专注于通过常用的时空建模网络获得统一的信息。他们的设计导致了时间、空间信息的纠缠，无法为随后的对比措施提供明确的指示。

挑战2.数据增强的局限性

此外，现有技术往往局限于规模转换(常见的增强策略，比如裁剪、旋转)，这导致无法充分利用数据增强的潜力。

挑战3. 未考虑方法的可迁移性

优化过程中，大多数方法都专注于在相同的表示水平上构建对比对;忽略域之间的差距(同一任务下或数据集中)

论文概述

SCD-NET(SCD-Net: Spatio temporal Clues Disentanglement Network for
Self-Supervised Skeleton-Based Action Recognition AAAI2024)引入了一种新的对比学习框架，即时空线索解耦网络(SCD-Net)。
具体来说，将解耦模块与特征提取器相结合，分别从空间和时间域获得明确的线索。对于SCD-Net的训练，构建了一个全局锚点，鼓励锚点与提取的线索相互作用。此外，本文提出了一种具有结构约束的新的掩码策略，以加强上下文关联，利用掩码图像建模到所提出的SCD-Net。
从实验结果来看，在NTU-RGB+D(60&120)和PKUMMD (I&II)数据集进行了广泛的评估，涵盖了各种下游任务，如动作识别、动作检索、迁移学习和半监督学习。实验结果证明了该方法的有效性，显著优于现有的最先进(SOTA)方法

核心创新点

为了解决自监督在面临的三个挑战，该文分别提出三种方法分别应对。首先在时空信息混淆的问题上，作者提出双向接口编码器；数据增强方面，分别在时间、空间上分设置不同的数据增强策略；方法的可迁移性方面设置了跨越对比损失，详细架构可见下文。
SCD-NET整体架构如下所示：骨架数据->数据增强(data augmentation)后，分别送入编码器层(encoder)以及动量编码器层(Momentum encoder).每个编码器都使用了双向解耦编码器，在经过特征抽取器(feature extractor)后，分别对空间解耦(spatial decoupling)、时间解耦(temporal decoupling)操作,获取不同维度的特征。动量编码器得到的输出作为键向量，正常编码器得到的输出作为查询向量，最后将键向量、查询向量进行对比学习

在这里插入图片描述

双向解耦编码器

一般来说，从骨架序列中提取的特征被描述为描述动作的复杂时空关联。然而，本文认为这种范式并不适用于对比学习。由于信息的纠缠性很大，很难为后续的比较提供明确的指导。在SCD-Net中，本文提倡一种双路解耦编码器，从复杂的序列信息中分别提取出时间、空间信息以获得更好的判别性表示。
双向解耦编码器构造如下图：分为建模(projection)和细化(refinement)阶段,空间部分对CT维度进行合并，保留V(代表骨骼关节)维度，而后进行嵌入操作得到骨架图->序列化–>transformer 编码器->空间池化->空间特征;时间部分对CC维度进行合并，保留T(代表视频帧)维度，而后进行嵌入操作得到关节序列->序列化–>transformer 编码器->时间池化->时间特征

在这里插入图片描述

# 双向解耦编码器
        vt = self.gcn_t(x)
        vt = rearrange(vt, '(B M) C T V -> B T (M V C)', M=2)
        vt = self.channel_t(vt)
        vs = self.gcn_s(x)
        vs = rearrange(vs, '(B M) C T V -> B (M V) (T C)', M=2)
        vs = self.channel_s(vs)
        vt = self.t_encoder(vt) # B T C
        vs = self.s_encoder(vs)
        # implementation using amax for the TMP runs faster than using MaxPool1D
        # not support pytorch < 1.7.0
        vt = vt.amax(dim=1)
        vs = vs.amax(dim=1)
        return vt, vs

跨域对比损失的构建

在这里插入图片描述

 # 正负样本以及损失函数的设计
    def forward(self, q_input, k_input):
        三种查询向量的定义
        qt, qs, qi = self.encoder_q(q_input)  # queries: NxC

        qt = nn.functional.normalize(qt, dim=1)
        qs = nn.functional.normalize(qs, dim=1)
        qi = nn.functional.normalize(qi, dim=1)

        # 计算key特征
        with torch.no_grad():  # no gradient to keys
            self._momentum_update_key_encoder()  # update the key encoder

            kt, ks, ki = self.encoder_k(k_input)  # keys: NxC

            kt = nn.functional.normalize(kt, dim=1)
            ks = nn.functional.normalize(ks, dim=1)
            ki = nn.functional.normalize(ki, dim=1)
        # 正负样本
        l_pos_ti = torch.einsum('nc,nc->n', [qt, ki]).unsqueeze(1)
        l_pos_si = torch.einsum('nc,nc->n', [qs, ki]).unsqueeze(1)
        l_pos_it = torch.einsum('nc,nc->n', [qi, kt]).unsqueeze(1)
        l_pos_is = torch.einsum('nc,nc->n', [qi, ks]).unsqueeze(1)

        l_neg_ti = torch.einsum('nc,ck->nk', [qt, self.i_queue.clone().detach()])
        l_neg_si = torch.einsum('nc,ck->nk', [qs, self.i_queue.clone().detach()])
        l_neg_it = torch.einsum('nc,ck->nk', [qi, self.t_queue.clone().detach()])
        l_neg_is = torch.einsum('nc,ck->nk', [qi, self.s_queue.clone().detach()])
        # 损失函数
        logits_ti = torch.cat([l_pos_ti, l_neg_ti], dim=1)
        logits_si = torch.cat([l_pos_si, l_neg_si], dim=1)
        logits_it = torch.cat([l_pos_it, l_neg_it], dim=1)
        logits_is = torch.cat([l_pos_is, l_neg_is], dim=1)

        logits_ti /= self.T
        logits_si /= self.T
        logits_it /= self.T
        logits_is /= self.T

结构化数据增强

本位在空间、时间部分分别提出了不同的增强策略，空间部分提出结构引导的空间掩码，时间部分提出基于管道的时间掩码

结构引导的空间掩码

考虑到骨架的物理结构，当选择某个关节进行掩码时，模型可能通过周围的点学习到相关信息，掩码效果不佳。通过施加结构约束，本文的方法在当前随机选择的关节或框架周围的局部区域内应用掩码操作，而不是仅依赖于孤立的点本文同时对其相邻区域的进行掩码。让本文用矩阵p来表示邻接关系，如果关节i和j连通，则Pij = 1，否则Pij= 0。令D = Pn。为了施加结构约束，当节点i被选中时，本文对Dij ！= 0的所有节点j执行相同的增强操作。

基于管道的时间掩码

基于管道的时间掩码的核心思想是通过将时间序列数据分为多个管道，并为每个管道生成对应的时间掩码，来提取关键的行为特征。具体而言，时间掩码是一种二进制序列，用于指示时间序列中的重要时间段。通过对时间序列数据进行分割，并根据具体的行为任务和特征需求，选择性地将时间掩码应用于每个管道。结构图图下：
这种方法的优势在于，它可以将注意力集中在对行为识别最有用的时间段上，从而提高模型对关键动作的感知能力。时间掩码的生成可以根据不同的策略进行，如基于阈值、基于能量或基于模式识别等方法。生成的时间掩码可以作为输入数据的权重，用于调整模型对不同时间段的重视程度

在这里插入图片描述

项目部署

准备工作

Pytorch环境
安装依赖包，运行以下命令即可
pip install -r requirements.txt

数据准备

生成数据

下载数据集

NTU-RGB+D
PKU-MMD

数据处理

用以下代码处理数据： python ntu_gendata.py

训练&测试

训练

训练 NTU-RGB+D 60数据集在 Cross-Subject 评价标准下的预训练模型, 运行以下命令

    python ./pretraining.py --lr 0.01 --batch-size 64 --encoder-t 0.2   --encoder-k 8192 \
                --checkpoint-path ./checkpoints/pretrain/ \
                --schedule 351  --epochs 451  --pre-dataset ntu60 \
                --protocol cross_subject --skeleton-representation joint

测试

测试论文给出模型在行为识别任务下NTU-RGB+D 60 数据集 Cross-Subject 评价标准上的结果, 运行以下命令

    python ./action_classification.py --lr 2 --batch-size 1024 \
                --pretrained ./checkpoints/pretrain/checkpoint.pth.tar \
                --finetune-dataset ntu60 --protocol cross_subject --finetune_skeleton_representation joint

测试论文给出模型在行为检索任务下NTU-RGB+D 60 数据集 Cross-Subject 评价标准上的结果, 运行以下命令

    python ./action_retrieval.py --knn-neighbours 1 \
                --pretrained ./checkpoints/pretrain/checkpoint.pth.tar \
                --finetune-dataset ntu60 --protocol cross_subject --finetune-skeleton-representation joint

bug修改

在复现原文代码的时候，直接运行运行./pretraining文件，会出现如下错误

在这里插入图片描述

错误如下：

TypeError: init() got an unexpected keyword argument ‘batch_first’

原因分析：

init方法没有参数‘batch_first’，所以将batch_first删去即可。在更改batch_first参数的请务必同时输入数据进行同步调整。具体来说，batch_first=True时的输入维度为 (batch, seq, feature)，否则对应的输入维度需要调整为(seq, batch, feature)

解决方法：

将报错代码中encoder_layer部分替换为如下代码，即可正常运行

        encoder_layer = TransformerEncoderLayer(self.d_model, num_head, self.d_model)
        self.t_encoder = TransformerEncoder(encoder_layer, num_layer)
        self.s_encoder = TransformerEncoder(encoder_layer, num_layer)

    def forward(self, x):
        
        vt = self.gcn_t(x)

        vt = rearrange(vt, '(B M) C T V -> B T (M V C)', M=2)
        vt = self.channel_t(vt)

        vs = self.gcn_s(x)
        
        vs = rearrange(vs, '(B M) C T V -> B (M V) (T C)', M=2)
        vs = self.channel_s(vs)

        # batch_first=True时的输入维度为 (batch, seq, feature)，
        # 否则对应的输入维度需要调整为(seq, batch, feature)
        # 通过transpose函数调整维度
        vt = vt.transpose(0, 1)  # 调整为 (T, B, M*V*C)
        vs = vs.transpose(0, 1)  # 调整为 (T, B*M*V, C)

        vt = self.t_encoder(vt) # 
        vs = self.s_encoder(vs) #

        vt = vt.amax(dim=1)
        vs = vs.amax(dim=1)

        return vt, vs

文章代码资源点击附件获取

原文地址：https://blog.csdn.net/weixin_62765017/article/details/142931636

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：分布式环境下验证码登录的技术实现
下一篇：NVM 安装步骤

AI+智慧电池数据集
6+智慧电池AI数据集，涉及电池充放电、烟雾检测、隔膜检测、生产温度预测等多应用领域
阅读更多2024-10-15
【力扣刷题实战】链表的中间结点
文章目录目录力扣题目：链表的中间结点题目描述示例 1：示例 2：解题思路问题理解算法选择具体思路解题要点完整代码（C语言）兄弟们共勉！！！每篇前言
阅读更多2024-10-15
深入理解UML类图：掌握类与关系的设计奥秘
类表示系统中的一种实体，主要是由名称、属性和操作组成。在UML中，类表达成一个有三个分隔区的矩形。其中顶端显示类名，中间显示类的属性，尾端显示类的操作。1、类必须各自有不同的类名称正体书写：可以实例化
阅读更多2024-10-15
【makefile】项目管理make & 基本用法
刚才提及的都是编译的目标，所以应该都是输出文件作为目标，而输出文件多多少少都会有依赖文件，而伪目标不是文件，所以他一定没有依赖/这么说其实太绝对后面其实发现不一定。有了伪目标之后，makefile的目
阅读更多2024-10-15
Redis日常运维
作为一名资深运维工程师，了解 Redis 的不同架构模式及其优缺点是非常重要的。此外，监控 Redis 的关键指标也是确保其稳定运行的关键。以下是对这些问题的详细解答。
阅读更多2024-10-15
D37【python 接口自动化学习】- python基础之函数
定义变量的参数是实参，调用函数的参数是形参...
阅读更多2024-10-15
大模型时代产品经理攻略：成功必备的几点深度思考_ai时代先上车
随着人工智能技术的飞速发展，大模型时代已经到来，对产品经理提出了更高的要求和挑战。在这个新的时代背景下，产品经理需要不断思考和探索，以适应和引领市场的变化。
阅读更多2024-10-15
如何提高 PCDN 的网络安全防护能力（壹）
可以显著提高 PCDN 的网络安全防护能力，保障内容分发的安全可靠，为用户提供稳定、放心的服务。如果您对PCDN的技术特点、应用场景、市场竞争和成本投入有深入了解，并且认为它符合您的业务需求和市场定位
阅读更多2024-10-15
计算机网络-RSTP快速生成树基础概念
在启动了环路保护功能后，如果根端口或Alternate端口长时间收不到来自上游设备的BPDU报文时，则向网管发出通知信息（此时根端口会进入Discarding状态，角色切换为指定端口），而Altern
阅读更多2024-10-15
Python3 接口自动化测试，HTTPS下载文件(GET方法和POST方法)
Python3 接口自动化测试，HTTPS下载文件(GET方法和POST方法)
阅读更多2024-10-15

自监督行为识别-时空线索解耦（论文复现）

自监督行为识别-时空线索解耦（论文复现）

文章目录

引言

论文概述

核心创新点

双向解耦编码器

跨域对比损失的构建

结构化数据增强

项目部署

准备工作

数据准备

生成数据

训练&测试

训练

测试

bug修改

相关文章