光流插帧调研与 BadCase 分析

2023 年 10 月 15 日 星期日(已编辑)
/ , , ,
3
摘要
针对大运动、小目标、重复纹理、遮挡四类 BadCase,实测对比 UPR-Net、EMA-VFI、AMT 等方法的结构偏好。自研 FBNet 参考 RIFE 和 IFRNet 的光流管线设计。

光流插帧调研与 BadCase 分析

编写时间:2023-10

2023 年底的视频插帧调研,目标不是复述所有论文,而是理解结构和真实视频 BadCase 的关系。核心问题是:哪些结构对大运动、小物体、重复纹理、遮挡更有效,哪些问题即使论文指标好也会在真实视频里翻车。

VFI 的基本问题

给定前后两帧 I0I1,生成中间帧 It。常见路线包括光流、kernel convolution、相位、扩散/生成、多模块融合等。

常见损失:

L=ρ(ItGTIt)+Lcensus(ItGT,It) L = \rho(I_t^{GT}-I_t)+L_{census}(I_t^{GT},I_t)

其中 Charbonnier 更关注像素回归,Census 更关注局部结构。

UPR-Net

UPR-Net 结构截图

UPR-Net 结构截图

UPR-Net 的重点是金字塔递归和参数共享。结构理解是:每一层结构可复用,低分辨率先估计粗运动,再逐层上采样细化。它对大运动边缘和高速足球这类小物体有时更好,但也会带来额外伪影。

EMA-VFI

EMA-VFI 结构截图

EMA-VFI 结构截图

EMA-VFI 的关键在 Motion-Appearance Feature Extractor。它先用帧间注意力得到相似性,再分别派生 appearance 和 motion 特征。

S01ij=SoftMax(Q0ij(K1nij)TC) S_{0\rightarrow1}^{ij}=SoftMax\left(\frac{Q_0^{ij}(K_1^{n_{ij}})^T}{\sqrt C}\right)
M01ij=S01ijBnijBij M_{0\rightarrow1}^{ij}=S_{0\rightarrow1}^{ij}B^{n_{ij}}-B^{ij}

部署实测表现为:高速运动足球丢失少,百叶窗还原不错,但大运动背景有明显模糊和建筑错位。

AMT

AMT 结构截图

AMT 结构截图

AMT 的重点是 all-pairs correlation 和多组 flow/mask/residual refinement。它看起来更“任务定向”,结构也更完整,但真实 BadCase 里有好有坏。

AMT badcase 前

AMT badcase 前
AMT badcase 后

AMT badcase 后

效果判断很直接:某些车牌、比分牌、脚部前后关系维护得更好,但也会在影子、建筑、重复纹理处出现错位。有些场景全面落后,不适合只看单帧指标下结论。

方法横向记录

方法亮点部署观感
UPR-Net金字塔递归、参数共享大运动边缘较好,但伪影增加
LDMVFIlatent diffusion 生成路线慢、模型大,效果不适合工程目标
EMA-VFImotion/appearance 注意力分离小球好,背景大运动易糊
AMT全对相关、多场 refinement局部更好,重复纹理和遮挡不稳
VOS-VFI分割感知训练百叶窗偶尔不错,其他场景不理想
WaveletVFI小波域插帧作为方向记录,未形成工程结论

RIFE 和 IFRNet

调研之外,实际设计的插帧模型(FBNet)主要参考了 RIFEIFRNet 的结构。RIFE 的 IFBlock 逐级细化光流加中间帧,IFRNet 在轻量级光流预测上的工程化做得很好。两者都是光流路线里部署友好型的代表。

BadCase 分类

结论是:VFI 不能只选论文榜单模型。真实视频里最重要的是 BadCase 的类型分布。如果素材里大量是体育、小球、重复纹理和快速镜头,模型的结构偏好会非常明显。

使用社交账号登录

  • Loading...
  • Loading...
  • Loading...
  • Loading...
  • Loading...