光流插帧调研与 BadCase 分析

编写时间：2023-10

2023 年底的视频插帧调研，目标不是复述所有论文，而是理解结构和真实视频 BadCase 的关系。核心问题是：哪些结构对大运动、小物体、重复纹理、遮挡更有效，哪些问题即使论文指标好也会在真实视频里翻车。

VFI 的基本问题

给定前后两帧 I0、I1，生成中间帧 It。常见路线包括光流、kernel convolution、相位、扩散/生成、多模块融合等。

Mermaid Loading...

常见损失：

L = \rho(I_t^{GT}-I_t)+L_{census}(I_t^{GT},I_t)

其中 Charbonnier 更关注像素回归，Census 更关注局部结构。

UPR-Net 的重点是金字塔递归和参数共享。结构理解是：每一层结构可复用，低分辨率先估计粗运动，再逐层上采样细化。它对大运动边缘和高速足球这类小物体有时更好，但也会带来额外伪影。

Mermaid Loading...

EMA-VFI 的关键在 Motion-Appearance Feature Extractor。它先用帧间注意力得到相似性，再分别派生 appearance 和 motion 特征。

S_{0\rightarrow1}^{ij}=SoftMax\left(\frac{Q_0^{ij}(K_1^{n_{ij}})^T}{\sqrt C}\right)

M_{0\rightarrow1}^{ij}=S_{0\rightarrow1}^{ij}B^{n_{ij}}-B^{ij}

部署实测表现为：高速运动足球丢失少，百叶窗还原不错，但大运动背景有明显模糊和建筑错位。

AMT 的重点是 all-pairs correlation 和多组 flow/mask/residual refinement。它看起来更“任务定向”，结构也更完整，但真实 BadCase 里有好有坏。

效果判断很直接：某些车牌、比分牌、脚部前后关系维护得更好，但也会在影子、建筑、重复纹理处出现错位。有些场景全面落后，不适合只看单帧指标下结论。

调研之外，实际设计的插帧模型（FBNet）主要参考了 RIFE 和 IFRNet 的结构。RIFE 的 IFBlock 逐级细化光流加中间帧，IFRNet 在轻量级光流预测上的工程化做得很好。两者都是光流路线里部署友好型的代表。

Mermaid Loading...

结论是：VFI 不能只选论文榜单模型。真实视频里最重要的是 BadCase 的类型分布。如果素材里大量是体育、小球、重复纹理和快速镜头，模型的结构偏好会非常明显。