自学内容网 自学内容网

YOLO系列代码

Test-Time Augmentation

  • TTA (Test Time Augmentation)是指在test过程中进行数据增强。
  • 其思想非常简单,就是在评测阶段,给每个输入进行多种数据增广变换将一个输入变成多个输入,然后再merge起来一起输出,形成一种ensemble的效果,可以用来提点。
  • 参考:https://zhuanlan.zhihu.com/p/131539596

YOLOX是旷视科技在2021年发表的一篇文章,当时主要对标的网络就是很火的YOLO v5,对比简单总结主要有三点,decoupled head、anchor-free以及advanced label assigning strategy(SimOTA)。

yolov5yolox

# Basic size of multi-scale prior box

anchors = [

[(10, 13), (16, 30), (33, 23)], # P3/8

[(30, 61), (62, 45), (59, 119)], # P4/16

[(116, 90), (156, 198), (373, 326)] # P5/32

]

# Config of batch shapes. Only on val.

# It means not used if batch_shapes_cfg is None.

batch_shapes_cfg = dict(

type='BatchShapePolicy',

batch_size=val_batch_size_per_gpu,

img_size=img_scale[0],

# The image scale of padding should be divided by pad_size_divisor

size_divisor=32,

# Additional paddings for pixel scale

extra_pad_ratio=0.5)

init_cfg

data_preprocessor

都有相比yolov3提出的是SPPF,更快,级连池化

backbone:

spp_kernal_sizes=(5, 9, 13),

YOLOv5HeadModule

YOLOAnchorGenerator

YOLOXHeadModule

SimOTAAssigner

  • Classes loss:使用的是 BCE loss

  • Objectness loss:使用的是 BCE loss

  • Location loss:使用的是 CIoU loss

L1 loss

decoupled detection head中对于预测Cls.Reg.以及IoU参数分别使用三个不同的分支,这样就将三者进行了解耦。这里需要注意一点,在YOLOX中对于不同的预测特征图采用不同的head,即参数不共享。以下为yolox:

以下为yolov5

YOLOv5 Head 结构和 YOLOv3 完全一样,为 非解耦 Head。Head 模块只包括 3 个不共享权重的卷积,用于将输入特征图进行变换而已。

前面的 PAFPN 依然是输出 3 个不同尺度的特征图,shape 为 (B,256,80,80)、 (B,512,40,40) 和 (B,1024,20,20)。 由于 YOLOv5 是非解耦输出,即分类和 bbox 检测等都是在同一个卷积的不同通道中完成。以 COCO 80 类为例:

  • P5 模型在输入为 640x640 分辨率情况下,其 Head 模块输出的 shape 分别为 (B, 3x(4+1+80),80,80)(B, 3x(4+1+80),40,40) 和 (B, 3x(4+1+80),20,20)

  • P6 模型在输入为 1280x1280 分辨率情况下,其 Head 模块输出的 shape 分别为 (B, 3x(4+1+80),160,160)(B, 3x(4+1+80),80,80)(B, 3x(4+1+80),40,40) 和 (B, 3x(4+1+80),20,20)。 其中 3 表示 3 个 anchor,4 表示 bbox 预测分支,1 表示 obj 预测分支,80 表示 COCO 数据集类别预测分支。


原文地址:https://blog.csdn.net/qingjing0413/article/details/145209400

免责声明:本站文章内容转载自网络资源,如本站内容侵犯了原著者的合法权益,可联系本站删除。更多内容请关注自学内容网(zxcms.com)!