【论文笔记】Are Large Kernels Better Teacheres than Transformers for ConvNets

🕗 发布于 2024-09-21 03:39 论文阅读

Abstract

本文提出蒸馏中小核ConvNet做学生时，与Transformer相比，大核ConvNet因其高效的卷积操作和紧凑的权重共享，使得其做教师效果更好，更适合资源受限的应用。
用蒸馏从Transformers蒸到小核ConvNet的效果并不好，原因是架构不同。

Github Repository

1 Information

在蒸馏过程，小核ConvNet做学生模型时，与Vision Transformers相比，大核ConvNet有以下优势：

同样好的精度
相似甚至更大的有效感受野(Effective receptive field, ERF)
（更重要的）是卷积操作，而不是自注意力模块

本文，在小核ConvNet做学生模型时，将现代大核ConvNet和先进Vision Transformers进行对比。本文发现在logits-level distillation和feature-level distillation下，大核ConvNet的效果都比Vision Transformers更有效。

3 Experimental Setup

本文目标是在蒸馏下全面比较Vision Transformers和现代大核ConvNet，并研究哪种更适合作为小核ConvNet的教师。

Evaluation Metrics

给定教师模型 $T$ （具有较高的任务准确率 $a cc (t e a c h er)$ ，学生模型 $S$ （具有较低的任务准确率 $a cc (s t u d e n t)$ ，通过知识蒸馏提高后者的准确率至 $a cc (d i s t i ll e d)$ 。
采用两种度量：
Direct Gain表示有知识蒸馏和无知识蒸馏的直接表现差异：
$\text{Direct Gain}=acc(distilled)-acc(student)\tag{1}$
教师很难拥有相同的准确率，因此使用Effective Gain：
$\text{Effective Gain}=\frac{acc(distilled)-acc(student)}{acc(teacher)}\tag{2}$

Dataset, Teacher and Student Models

在常用的ImageNet数据集（1000类别，1281167训练图像，50000验证图像）进行实验。

有两个主要的蒸馏pipeline：

Pipeline I: 大核ConvNet→小核ConvNet
Pipeline II: Transformers→小核ConvNet

对于两个pipeline，学生模型选择了带有3×3卷积核的ResNet-50和带有7×7卷积核的ConvNeXt-T。
对于Pipeline I，教师模型选择ConvNeXt-T和SLaK；
对于Pipeline II，教师选择ViT-S，Swin-T，CSWin-T。

Distillation Methods

为了得出可靠的结论，本研究采用了logits-level distillation和feature-level distillation相结合的方法。
不失一般性，选择KD、NKD作为logits-level distillation，选择FD作为feature-level distillation。

4 Experimental Results

4.1 Large-Kernel ConvNet vs. Transformer as Teachers

4.1.1 Logit-level Distillation

![[Pasted image 20240920200800.png]]
![[Pasted image 20240920200809.png]]

大核ConvNets比Transformers更适合做小核ConvNets的教师。
与小核相比，学生模型从大核ConvNets获得的提升更多。
大核ConvNets可以让学生训练得更快。

4.1.2 Feature-level Distillation

![[Pasted image 20240920202947.png]]
![[Pasted image 20240920204102.png]]

在feature distillation下，从蒸馏出的学生模型的表现来看，大核ConvNet比Transformers的表现要好。
当使用多层特征图进行特征蒸馏（FD）时，大核卷积网络作为教师模型的优势仍然优于基于Transformer的教师模型。

4.2 Scaling to Longer Training

本文还将训练epoch从120次延长到300次，并展现了从大核教师和基于Transformer的教师中提取的ResNet-50的性能。
![[Pasted image 20240920212721.png]]
显而易见，较长训练周期的性能趋势与短周期高度一致。在所有五个教师模型中，SLaK-T教师模型使得学生模型表现最佳，这表明大核教师模型相较于基于Transformer的教师模型在较长训练过程中同样具有优势。

5 What Else are Transferrable from Larger Kernels Teachers?

5.1 Transferring Effective Receptive Fields(ERF)

有效感受野(Effective Receptive Fields, ERF)是指包含对该单元输出有非忽略影响的任意输入像素的区域。
![[Pasted image 20240920215356.png]]

图1：ConvNeXt-T从不同教师模型蒸馏而来的有效感受野（ERF）。学生模型是带有7×7卷积核的ConvNeXt-T。左图为未经蒸馏的监督学习ConvNeXt-T，而其余图像来自于蒸馏后的ConvNeXt-T。
总体而言，来自51×51大核SLaK蒸馏的学生模型相比于来自Transformer教师模型蒸馏的学生模型，表现出更大且更密集的ERF。这进一步证明大核卷积网络在蒸馏过程中比Transformer更能有效地传递大ERF，从而提高学生模型的性能。

5.2 Transferring Robustness

![[Pasted image 20240920221853.png]]
结果如表7所示。

从现代ConvNets蒸馏出的学生优于从最新的Transformer模型学习的学生模型。
在大核教师中，SLaK-T相比ConvNeXt向学生传递了更好的鲁棒性，尽管它作为教师模型的鲁棒性较低。
鲁棒的Transformer并不一定能有效地传递给小核学生。这表明，在分布内(in-distribution)和分布外(out-of-distribution)的表现上，大核卷积网络比先进的视觉Transformer和小核网络更强大。

原文地址：https://blog.csdn.net/xhyu61/article/details/142406994

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：vmware + ubuntu + 初始配置（超级用户权限、vim安装、ssh登陆、共享文件夹、git）
下一篇：树莓派4B+UBUNTU20.04+静态ip+ssh配置

nn.Embedding
在这个代码片段中，类继承了类，并在__init__方法中通过调用来初始化父类。由于没有定义新的方法，默认情况下它会使用的行为来提供返回值。
阅读更多2024-09-23
clinvar数据库variant_summary.txt.gz各列详细介绍
Pathogenic;Pathogenic;used for。
阅读更多2024-09-23
STM32精确控制步进电机
10mm二相四线微型步进电机电机输出是4个引脚，需要自己焊机线，相电阻53欧，步进角度估计18度，丝杆滑块行程32mm，丝杆转一圈铜滑块大约移动行程0.4mm。3. 安全考虑：控制脉冲的最大输出数量，
阅读更多2024-09-23
Go语言中的并发编程
发送通道：可以使用 chan<- 来表示一个只用于发送数据的通道。接收通道：可以使用 <-chan 来表示一个只用于接收数据的通道。import ("fmt"// 定义
阅读更多2024-09-23
从Yargs源码学习中间件的设计
简化复杂逻辑：对于复杂的流程，我们可以拆解成多个简单的步骤，既增加了每个步骤的控制性，又简化了流程操作。例如，在一个请求处理的生命周期中，添加一个新的功能只需要添加一个中间件。我们也可以将中间件的思维
阅读更多2024-09-23
计算机视觉中的几何基元：用Python揭开图像的秘密
嘿，小伙伴们！今天我们要聊的是计算机视觉中的几何基元——那些帮助我们理解和处理图像的神奇工具。无论你是初学者还是资深开发者，这篇文章都将带你深入浅出地了解几何基元，并通过Python代码实战演示。准备
阅读更多2024-09-23
FPGA科学高效的编程方法有哪些？
FPGA的编程方法侧重于并行设计、资源优化和时序管理，科学高效的编程可以大幅提高开发速度和系统性能。在实践中，结合高效工具、模块化设计、并行处理与仿真验证等方法，能帮助开发者应对FPGA开发中的复杂挑
阅读更多2024-09-23
【MySQL】获取最近7天和最近14天的订单数量，使用MySQL详细写出，使用不同的方法
要获取最近7天和最近14天的订单数量，我们可以使用不同的方法来优化查询性能。
阅读更多2024-09-23
论文阅读：A Generalization of Transformer Networks to Graphs
作者提出了一种适用于任何图的GraphTransformer。这种结构不能很好利用图的连通归纳偏置（graph connectivity inductive bias）当图的拓扑结构很重要且尚未编码到
阅读更多2024-09-23
啥？Bing搜索古早BUG至今未改？
首先，大家先看下面的一个数学公式。Γ(z)=∫0∞tz−1e−tdt . \Gamma(z) = \int_0^\infty t^{z-1}e^{-t}dt\,. Γ(z)=∫0∞tz−1e−tdt
阅读更多2024-09-23