[论文理解] ICCV2021--视频小目标探测狗斗--结果:
实施细节
stage-1:
NPS-Drones数据集:将每帧图片切分成9个overlapping patches
FL-Drones:将每帧图片切分成4个overlapping patches
end-to-end从零训练
stage-2
采用预训练的I3D网络
NPS-Drones数据集:cuboid中每个patch的尺寸为100*100
FL-Drones:cuboid中每个patch的尺寸由无人机目标的尺寸决定
Adam优化器
初始lr=0.001,无decay
采用最大最小尺寸阈值对候选框进行筛选
采用hard-negative mining
后处理阶段,移除值检测到一次的目标。
评估指标:
precision, recall, F1-score,AP
每帧图片作为独立的样本进行评估
数据集
NPS-Drones
50 videos, 分辨率(1920×1080 and 1280×760),采用GoPro-3采集
总画面帧数为:70250
画面中无人机尺寸:最小(10 × 8),平均( 16.2 × 11.6), and最大( 65 × 21)
和FL-Drones
前40个视频为训练集,最后10个位测试集
FL-Drones:
这个数据集难度更大,因为目标存在极端遮挡,更多的姿态和尺寸变化,包含室内和室外样本
14 videos, 分辨率(640×480 and 752×480)
总画面帧数为:38948
画面中无人机尺寸:最小(9 × 9),平均( 25.5 × 16.4), and最大( 259 × 197)
一半用来训练,一半用来测试
由于这俩数据集中的标注框比实际目标大,作者对这两个数据集进行了重新标注。
与SOTA对比
参与对比的方法
-
全卷积一阶段的目标检测FCOS:fully convolutional one-stage object detector [36],
-
小目标检测器SCRDet: cluttered and rotated small object detector [42],
-
实例分割Mask-RCNN: instance segmentation [13],
-
视频目标检测MEGA, SLSA,video object detectors [7, 39].
baseline的方法都是使用开源的预训练模型,训练iterations在8W~10W之间,使用一个1080Ti训练。
消融试验ablation studies
第一行只是用cross-entropy loss
第二行结合了focal loss和distance-IOU
第三行使用了channel-wise attention
第四行使用了pixel-wise attention
最后两行是指只有一个阶段,和使用两个阶段
第二阶段能够发现识别困难的无人机
检测失败的case