[论文理解] ICCV2021--视频小目标探测狗斗--结果：

最编程 2024-03-17 21:47:04

...

stage-1：

NPS-Drones数据集：将每帧图片切分成9个overlapping patches

FL-Drones：将每帧图片切分成4个overlapping patches

end-to-end从零训练

stage-2

采用预训练的I3D网络

NPS-Drones数据集：cuboid中每个patch的尺寸为100*100

FL-Drones：cuboid中每个patch的尺寸由无人机目标的尺寸决定

Adam优化器

初始lr=0.001，无decay

采用最大最小尺寸阈值对候选框进行筛选

采用hard-negative mining

后处理阶段，移除值检测到一次的目标。

评估指标：

precision， recall， F1-score，AP

每帧图片作为独立的样本进行评估

NPS-Drones

50 videos，分辨率(1920×1080 and 1280×760)，采用GoPro-3采集

总画面帧数为：70250

画面中无人机尺寸：最小（10 × 8）,平均（ 16.2 × 11.6）, and最大（ 65 × 21）

和FL-Drones

前40个视频为训练集，最后10个位测试集

FL-Drones：

这个数据集难度更大，因为目标存在极端遮挡，更多的姿态和尺寸变化，包含室内和室外样本

14 videos，分辨率(640×480 and 752×480)

总画面帧数为：38948

画面中无人机尺寸：最小（9 × 9）,平均（ 25.5 × 16.4）, and最大（ 259 × 197）

一半用来训练，一半用来测试

由于这俩数据集中的标注框比实际目标大，作者对这两个数据集进行了重新标注。

参与对比的方法

baseline的方法都是使用开源的预训练模型，训练iterations在8W~10W之间，使用一个1080Ti训练。

第一行只是用cross-entropy loss

第二行结合了focal loss和distance-IOU

第三行使用了channel-wise attention

第四行使用了pixel-wise attention

最后两行是指只有一个阶段，和使用两个阶段

第二阶段能够发现识别困难的无人机

检测失败的case