视频目标分割-2024CVPR】将对象放回视频对象分割中-1 摘要

最编程 2024-10-01 07:11:51

...

背景：我们提出了Cutie模型，它是一个结合了对象级记忆读取的视频对象分割网络，它将记忆中的对象表征重新返还给视频目标分割结果。
难点、不足：最近的VOS工作都采用自下而上的像素级记忆读取，它们由于匹配了噪声，尤其是在有干扰物的情况下，导致其结果在具有挑战性的数据下表现不佳。
解决方案：Cutie通过采取一个小型的对象查询集合实现了自上而下的对象级记忆读取。它通过query-based object transformer与自下而上的像素级特征进行交互迭代。这个object queries充当目标对象的高级总结，同时保留高分辨率特征图以实现高准确率分割。结合foreground-background masked attention，Cutie可以将前景图像从背景图中干净的分割出来。
结果：在具有挑战的MOSE数据集中，在相似的运行时间下，Cutie相比XMem提升了8.7 J&F；Cutie相比DeAOT提升了4.2 J&F，速度还快了三倍。

在这里插入图片描述

图0：如图所示，图像从左到右依次为输入图像、目标对象mask、pixel attention和object querry attention。可以发现，在pixel attention中，当存在相似物体时，attention map会被干扰。而object querry attention则专注于目标对象。

上一篇： [机器学习] 任务 6：分类算法（支持向量机 (SVM) 在线性可分和不可分数据中的应用及可视化分析）

下一篇： MySQL 事务处理深度：从基本概念到 ACID 功能和并发控制