【论文阅读】Long-Tailed Recognition via Weight Balancing（CVPR2022）

🕗 发布于 2024-01-29 23:42 论文阅读

论文

问题：真实世界中普遍存在长尾识别问题，朴素训练产生的模型在更高准确率方面偏向于普通类，导致稀有的类别准确率偏低。
key:解决LTR的关键是平衡各方面，包括数据分布、训练损失和学习中的梯度。
文章主要讨论了三种方法： L2normalization, weight decay, and MaxNorm
一些有用的看法：

研究表明，与联合训练特征学习和分类器学习的模型相比，解耦特征学习和分类器学习导致了显著的改进。
根据基准测试结果，通过集成专家模型或采用主动数据增强技术的自监督预训练来实现最好精度。
研究发现，SGD动量导致LTR出现问题，阻碍了进一步改善。
最近，Kang等人令人信服地证明了阶段性训练对LTR很重要。
权重衰减有助于学习隐藏层的平衡权重。
重要的是，我们的探索发现，虽然在分类器上使用L2规范化约束进行训练比简单训练有所改进，但它的表现不如下面描述的其他两个正则化。
与严格将所有滤波器权重的范数值设置为1的L2归一化不同，MaxNorm放松了这一约束，允许权重在训练期间在范数球内移动。
权重衰减中，不同数据集的最优λ各不相同——较大的数据集需要较小的权重衰减，直观地说，因为在更多数据上学习有助于泛化，因此需要较少的正则化。
单阶段使用不平衡损失训练效果不好的原因：虽然他们没有解释为什么具有类平衡损失的单阶段训练表现不佳，但直观地说，这是因为类平衡损失人为地放大了从罕见的类训练数据计算的梯度，这损害了特征表示学习，从而损害了最终的LTR性能。
本文作者使用了weight decay和max norm两种方法结合，因为发现两个结合效果更好。让模型不同类之间权重相差不会很大的同时，还能让这些权重缓慢增加。
下面这幅图就是解释了这些方法的特点。

第一个就是普通方法训练的，它常见的类别权重增长快。
第二个是L2 normalization，它把所有类别的权重都限定在一个常数。
第三个是权重衰减，它的所有类的权重小，而且权重在增长。
第四个是MaxNorm，它限制最大的权重。
第五个是权重衰减和MaxNorm，会导致范数中的权重较小且平衡。

使用方法

weight decay

先定义好权重衰减的值。

weight_decay = 0.1 #weight decay value

然后在优化器中调用。Adam还有其他的都有weight_decay。

optimizer = optim.SGD([{'params': active_layers, 'lr': base_lr}], lr=base_lr, momentum=0.9, weight_decay=weight_decay)

MaxNorm

就是这个论文中的regularizers.py中的代码。只要会使用就好。

#使用前先定义好初始化好
pgdFunc = MaxNorm_via_PGD(thresh=thresh)
pgdFunc.setPerLayerThresh(model) # set per-layer thresholds这个是计算模型每一层的权重的阈值，这篇论文中只计算最后线性层的权重，并对最后线性层的权重进行限制

当模型训练一个epoch结束后，对已经更新完毕的模型权重进行限制，如果超过阈值就进行更新，让权重在最大范数的约束下。

 if pgdFunc:# Projected Gradient Descent
     pgdFunc.PGD(model)#对权重进行限制

import torch
import torch.nn as nn
import math
# The classes below wrap core functions to impose weight regurlarization constraints in training or finetuning a network.

class MaxNorm_via_PGD():
    def __init__(self, thresh=1.0, LpNorm=1, tau=1):
        self.thresh = thresh
        self.LpNorm = LpNorm
        self.tau = tau
        self.perLayerThresh = []

    def setPerLayerThresh(self, model):#根据指定的模型设置每层的阈值
        #set pre-layer thresholds
        self.perLayerThresh = []

        for curLayer in [model.encoder.fc.weight, model.encoder.fc.bias]:#遍历模型的最后两层
            curparam = curLayer.data#获取当前层的数据
            if len(curparam.shape) <= 1:#如果层只有一个维度，是一个偏置或者是一个1D的向量，则设置这一层的阈值为无穷大，继续下一层
                self.perLayerThresh.append(float('inf'))
                continue
            curparam_vec = curparam.reshape((curparam.shape[0], -1))#如果不是，把权重张量展开
            neuronNorm_curparam = torch.linalg.norm(curparam_vec, ord=self.LpNorm, dim=1).detach().unsqueeze(-1)#沿着第一维计算P番薯，结果存储
            curLayerThresh = neuronNorm_curparam.min() + self.thresh*(neuronNorm_curparam.max() - neuronNorm_curparam.min())#计算每一层的阈值及神经元范数的最小值加上最大值和最小值之间的缩放差
            self.perLayerThresh.append(curLayerThresh)#每层阈值存储

    def PGD(self, model):#定义PGD函数，用于在模型的参数上执行投影梯度下降，试试最大范数约束
        if len(self.perLayerThresh) == 0:#如果每层的阈值是空，用setPerLayerThresh方法初始化
            self.setPerLayerThresh(model)
        for i, curLayer in enumerate([model.encoder.fc.weight, model.encoder.fc.bias]):#遍历模型的最后两层
            curparam = curLayer.data#获取当前层的数据张量值
            curparam_vec = curparam.reshape((curparam.shape[0], -1))#变成一维
            neuronNorm_curparam = (torch.linalg.norm(curparam_vec, ord=self.LpNorm, dim=1)**self.tau).detach().unsqueeze(-1)#在最后加一维
            #计算权重张量中每行神经元番薯的tau次方
            scalingVect = torch.ones_like(curparam)#创建一个形状与当前层数据相同的张量，用1初始化
            curLayerThresh = self.perLayerThresh[i]#获取阈值

            idx = neuronNorm_curparam > curLayerThresh#创建bool保存超过阈值的神经元
            idx = idx.squeeze()#
            tmp = curLayerThresh / (neuronNorm_curparam[idx].squeeze())**(self.tau)#根据每层的阈值和超过阈值的神经元番薯计算缩放因子
            for _ in range(len(scalingVect.shape)-1):#扩展缩放因子以匹配当前层数据的维度
                tmp = tmp.unsqueeze(-1)

            scalingVect[idx] = torch.mul(scalingVect[idx],tmp)
            curparam[idx] = scalingVect[idx] * curparam[idx]
            curparam[idx] = scalingVect[idx] * curparam[idx]#通过缩放值更新当前层的数据，以便对超过阈值的神经元进行缩放。完成权重更新

原文地址：https://blog.csdn.net/goodenough5/article/details/135920671

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：爬虫学习笔记-get请求获取豆瓣电影排名多页数据★★★★★
下一篇：（十四）测频NE555应用

2024年网络安全（黑客技术）三个月自学手册
网络安全可以基于攻击和防御视角来分类，我们经常听到的 “红队”、“渗透测试” 等就是研究攻击技术，而“蓝队”、“安全运营”、“安全运维”则研究防御技术。走安全行业的工程方向的，技术上面其实有很大的重叠
阅读更多2024-11-15
数据结构Python版
2.3.3 双链表双链表和链表一样，只不过每个节点有两个链接——一个指向后一个节点，一个指向前一个节点。此外，除了第一个节点，双链表还需要记录最后一个节点。每个结点为DLinkNode类对象，包括存储
阅读更多2024-11-15
连接数据库导出数据库信息支持excel pdf html markdown
1. java -jar运行后连接数据库即可，支持多种数据库。2.支持多种导出格式。
阅读更多2024-11-15
【解决】Layout 下创建槽位后，执行 Image 同步槽位位置后表现错误的问题。
开发平台：Unity 6.0编程语言：CSharp编程平台：Visual Studio 2022。
阅读更多2024-11-15
乐理的学习（简谱过渡五线谱）
调号在五线谱开头标注多个“♯”或“♭”每个“♯”或“♭”对应一个音符位置的升降，比如：C大调（无升降）是自然大调的基础形式，不需要额外调号。G大调：在调号中添加一个“F♯”，表示所有的F都要弹F♯。D
阅读更多2024-11-15
CSS回顾-颜色单位详解
本文介绍了 CSS 中的颜色单位相关知识。包括颜色名称、十六进制颜色值、RGB、RGBA、HSL、HSLA 等颜色单位的表示方式、特点及使用场景。还阐述了颜色单位之间（颜色名称与十六进制、十六进制与
阅读更多2024-11-15
Spring Boot中集成Redis与MySQL
用途：将键或简单的值序列化为字符串。适用场景：通常用于键的序列化，确保键在 Redis 中以字符串存储，以便于直接查看和管理。用途：将对象序列化为 JSON 格式的字符串，并支持 JSON 反序列化回
阅读更多2024-11-15
linux配置nginx
状态如果是Active: active (running)则是正常的。
阅读更多2024-11-15
C03S04-Linux网络之软件仓库、SSH和NFS
SSH是一种安全通道协议，主要用于远程登录到服务器、执行远程命令、传输文件以及管理服务器等。默认的端口号是TCP/22。NFS（网络文件系统，Network File System）是一种件系统协议，
阅读更多2024-11-15
无人机飞手在保家卫国上重要性技术详解
无人机飞手通过操作无人机上的通信设备，可以将侦察到的情报信息及时传输给指挥系统，同时也可以接收指挥系统的指令进行任务调整。无人机飞手经过专业培训，不仅掌握了无人机在不同气候、地形条件下的飞行技巧，还具
阅读更多2024-11-15

【论文阅读】Long-Tailed Recognition via Weight Balancing（CVPR2022）

论文

使用方法

weight decay

MaxNorm

相关文章