欢迎您访问 最编程 本站为您分享编程语言代码,编程技术文章!
您现在的位置是: 首页

[论文理解] ICCV2021--视频小目标探测狗斗--结果:

最编程 2024-03-17 21:47:04
...

实施细节

stage-1: 

NPS-Drones数据集:将每帧图片切分成9个overlapping patches

FL-Drones:将每帧图片切分成4个overlapping patches

end-to-end从零训练

stage-2

采用预训练的I3D网络

NPS-Drones数据集:cuboid中每个patch的尺寸为100*100

FL-Drones:cuboid中每个patch的尺寸由无人机目标的尺寸决定

Adam优化器

初始lr=0.001,无decay

采用最大最小尺寸阈值对候选框进行筛选

采用hard-negative mining

后处理阶段,移除值检测到一次的目标。

评估指标:

precision, recall, F1-score,AP

每帧图片作为独立的样本进行评估

数据集

NPS-Drones

50 videos, 分辨率(1920×1080 and 1280×760),采用GoPro-3采集

总画面帧数为:70250

画面中无人机尺寸:最小(10 × 8),平均( 16.2 × 11.6), and最大( 65 × 21)

和FL-Drones

前40个视频为训练集,最后10个位测试集

FL-Drones:

这个数据集难度更大,因为目标存在极端遮挡,更多的姿态和尺寸变化,包含室内和室外样本

14 videos, 分辨率(640×480 and 752×480)

总画面帧数为:38948

画面中无人机尺寸:最小(9 × 9),平均( 25.5 × 16.4), and最大( 259 × 197)

一半用来训练,一半用来测试

由于这俩数据集中的标注框比实际目标大,作者对这两个数据集进行了重新标注。

与SOTA对比

参与对比的方法

  • 全卷积一阶段的目标检测FCOS:fully convolutional one-stage object detector [36], 
  • 小目标检测器SCRDet: cluttered and rotated small object detector [42], 
  • 实例分割Mask-RCNN: instance segmentation [13], 
  • 视频目标检测MEGA, SLSA,video object detectors [7, 39].

baseline的方法都是使用开源的预训练模型,训练iterations在8W~10W之间,使用一个1080Ti训练。

消融试验ablation studies

第一行只是用cross-entropy loss

第二行结合了focal loss和distance-IOU

第三行使用了channel-wise attention

第四行使用了pixel-wise attention

最后两行是指只有一个阶段,和使用两个阶段

第二阶段能够发现识别困难的无人机

检测失败的case