欢迎您访问 最编程 本站为您分享编程语言代码,编程技术文章!
您现在的位置是: 首页

腾讯和清华联合提出了一种图像到视频的生成方法--"Follow-Your-Click":点击图像并添加一个简单的提示词,就能使图像移动!

最编程 2024-04-19 13:14:09
...

Follow-Your-Click只需单击一次和简短的提示就可以让图像的某一部分动起来,还支持不同的动作表达,比如微笑,悲伤,跳舞……

相关链接

论文链接:https://arxiv.org/abs/2403.08268

项目链接:https://github.com/mayuelala/FollowYourClick

论文阅读

通过简短提示进行开放域区域图像动画

摘要

尽管最近在图像到视频生成方面取得了进展,但更好的可控性和局部动画却很少被探索。大多数现有的图像到视频的方法不具有局部意识,并且倾向于移动整个场景。然而,人类艺术家可能需要控制运动不同物体或区域的。此外,当前的I2V方法需要 用户不仅要描述目标运动,还要提供冗余的帧内容详细描述。这两个问题阻碍了当前I2V工具的实际应用。

在本文中,我们提出了一个实用的框架Follow-Your-Click,通过简单的用户点击(用于指定要移动的内容)和一个简短的按钮来实现图像动画运动提示符(用于指定如何移动)。从技术上讲,我们建议第一帧掩蔽策略,显著提高视频生成质量运动提示数据集提高模型短提示跟踪能力。

为了进一步控制运动速度,我们提出了基于流的方法运动幅度控制更能控制目标运动的速度精确。我们的框架具有更简单而精确的用户控制和更好的生成性能优于以前的方法。大量的实验比较了7条基线,包括商业工具和研究方法,在8个指标上表明了我们方法的优越性。

区域图像动画使用点击和简短提示。我们提出一种新的框架,通过用户提供的点击(移动到哪里)和简短的动作提示(如何移动),促进本地感知图像动画。我们的框架可以提供生动的对象运动,背景运动(例如,风暴),和多个对象移动。最好使用acrobatreader查看,它支持单击在视频上播放动画。

方法

框架概述。我们的框架的关键组件是第一帧掩蔽,运动增强模块的短动作提示跟随,和基于流量的运动强度控制。在推理过程中,区域动画可以是通过用户点击和简短的动作提示实现。

实验

基线方法定量比较

我们的方法演示跨多个指标的最佳或可比较的性能。 表现最好的方法的指标用红色突出显示,而那些用于第二好的方法用蓝色突出显示。

基线方法定性比较

我们 与gen2[3]、Genmo[4]、Genmo[3]等封闭的商业工具进行比较Pika[6]和包括Animate-anything[19],Dynamicrafter[78], I2VGen-XL[5]。

下面来看一些实际效果:

不同方法生成的动画

我们将我们的方法与最新的开源最先进的动画方法进行定性比较,包括Animate anything, SVD, Dynamicrafter和I2VGen-XL。我们还将我们的方法与商业工具(如Gen-2、Genmo和Pika Labs)进行了比较。

运动强度控制

在这里我们展示了我们的光流运动幅度控制(OFM)和基于FPS的运动幅度控制(FPS)之间的比较。

消融实验

在这里,我们展示了构建的短提示数据集(D)和运动增强模块(M)消融的定性结果。运动提示是“运行”。

限制

正如视频中所示,我们的方法在生成大型和复杂的人体动作方面受到限制。这可能是由于动作的复杂性和相关训练样本的稀缺性。

结论

在本文中,我们提出了Follow-Your-Click来解决生成问题可控和本地动画。据我们所知,我们是第一个I2V框架,能够通过一个简单的点击区域还有一个简短的动作提示生成图像动画。

为了支持这一点,首先将提示分段工具SAM合并到我们的框架中,以方便用户使用交互。

  • 为了实现短提示跟踪能力,我们提出了一个运动增强模块和一个构建的短提示数据集来实现这一目标。

  • 为了提高生成的时间运动质量,我们提出了第一帧屏蔽策略,显著提高了生成性能。

  • 为了使准确的学习运动速度,我们利用光流得分精确控制运动幅度。

我们的实验结果强调与现有基线相比,我们的方法的有效性和优越性。