光流插帧调研与 BadCase 分析
编写时间:2023-10
2023 年底的视频插帧调研,目标不是复述所有论文,而是理解结构和真实视频 BadCase 的关系。核心问题是:哪些结构对大运动、小物体、重复纹理、遮挡更有效,哪些问题即使论文指标好也会在真实视频里翻车。
VFI 的基本问题
给定前后两帧 I0、I1,生成中间帧 It。常见路线包括光流、kernel convolution、相位、扩散/生成、多模块融合等。
常见损失:
其中 Charbonnier 更关注像素回归,Census 更关注局部结构。
UPR-Net

UPR-Net 结构截图
UPR-Net 的重点是金字塔递归和参数共享。结构理解是:每一层结构可复用,低分辨率先估计粗运动,再逐层上采样细化。它对大运动边缘和高速足球这类小物体有时更好,但也会带来额外伪影。
EMA-VFI

EMA-VFI 结构截图
EMA-VFI 的关键在 Motion-Appearance Feature Extractor。它先用帧间注意力得到相似性,再分别派生 appearance 和 motion 特征。
部署实测表现为:高速运动足球丢失少,百叶窗还原不错,但大运动背景有明显模糊和建筑错位。
AMT

AMT 结构截图
AMT 的重点是 all-pairs correlation 和多组 flow/mask/residual refinement。它看起来更“任务定向”,结构也更完整,但真实 BadCase 里有好有坏。

AMT badcase 前

AMT badcase 后
效果判断很直接:某些车牌、比分牌、脚部前后关系维护得更好,但也会在影子、建筑、重复纹理处出现错位。有些场景全面落后,不适合只看单帧指标下结论。
方法横向记录
| 方法 | 亮点 | 部署观感 |
|---|---|---|
| UPR-Net | 金字塔递归、参数共享 | 大运动边缘较好,但伪影增加 |
| LDMVFI | latent diffusion 生成路线 | 慢、模型大,效果不适合工程目标 |
| EMA-VFI | motion/appearance 注意力分离 | 小球好,背景大运动易糊 |
| AMT | 全对相关、多场 refinement | 局部更好,重复纹理和遮挡不稳 |
| VOS-VFI | 分割感知训练 | 百叶窗偶尔不错,其他场景不理想 |
| WaveletVFI | 小波域插帧 | 作为方向记录,未形成工程结论 |
RIFE 和 IFRNet
调研之外,实际设计的插帧模型(FBNet)主要参考了 RIFE 和 IFRNet 的结构。RIFE 的 IFBlock 逐级细化光流加中间帧,IFRNet 在轻量级光流预测上的工程化做得很好。两者都是光流路线里部署友好型的代表。
BadCase 分类
结论是:VFI 不能只选论文榜单模型。真实视频里最重要的是 BadCase 的类型分布。如果素材里大量是体育、小球、重复纹理和快速镜头,模型的结构偏好会非常明显。