数字视频稳定调查：概念、方法和挑战

本文翻译自《ACM技术洞察》科学杂志上的一篇文章：《Survey on Digital Video Stabilization: Concepts, Methods, and Challenges》，原文链接如下：

https://dl.acm.org/doi/pdf/10.1145/3494525

CSUR-IG是谁？

CSUR-IG是计算调研兴趣小组 Computing SURveys Interest Group的缩写。我们是ACM技术洞察研究团队。我们是来自4个地方的同学：

1名深圳大学大三学生

2名中原工学院研一学生

1名安阳工学院大三学生

1名南通科技学院大三学生

我们在OpenHarmony成长计划啃论文俱乐部里，与华为、软通动力、鸿湖万联等公司一起，学习和研究操作系统技术…

1. 简介

1.1 本文摘要

数字视频稳定是一项具有挑战性的任务，旨在通过平滑相机轨迹将可能不稳定的视频转换为令人愉快的视频。

稳定可以借助硬件（稳定器）的方式实现，也可以通过软件算法的方式实现。本文谈的是后者。

尽管在解决这一任务的文献中发现了各种作品，但它们的组织和分析尚未受到太多关注。在这项工作中，我们根据提议的分类法对视频稳定的文献进行了全面回顾。介绍了该问题的正式定义，以及物理术语的简要解释。我们还就这一活跃领域的主要挑战和未来趋势进行了全面讨论。

1.2 数字视频稳定的定义

数字视频稳定就是通过平滑相机轨迹将可能不稳定的视频转换为令人愉快的视频。视频可以表示为一系列照片（帧）。

图中，真实世界裁剪（白色）产生的照片和视频（蓝色）的表示。左：以矩形表示的照片。中间和右侧：以音量表示的稳定和不稳定视频。

数字视频稳定就想解决不用设备（直接用手）的情况下，把视频拍得好看，很有商业价值。

2. 正式定义和分类

2.1 相机运动方法

我拿着相机，可以前后左右走，举高举低（第一个图），我拍特别角度，拿着相机转（第二个图），合起来就是复杂运动（第三个图）。

2.2 数字视频稳定的一些方法

2.2.1 经典的方法（三步走）：

数字视频稳定的典型过程涉及三个不同的步骤，如下图所示：(1) 摄像机运动估计，(2) 不需要的运动确定，以及 (3) 稳定视图渲染。

2.2.2 基于深度学习的方法：

深度学习的方法提出了深度神经网络架构，以有监督或无监督的方式稳定视频。

3. 主要挑战场景

3.1 相机的估计运动

拍摄的过程中，人会带着相机运动，拍摄的事物也会运动，组合起来就是表观运动，也就是拍出来的东西。相机的估计运动就是通过表观运动（拍出来的东西）估计出相机本身是怎么运动的。

相机运动估计技术地图，主要讲了估计出相机本身是怎么运动中2D（二维），3D（三维）和2.5D（混合方法）的一些处理方法，并且给出了相应的描述和优缺点比较：

表 1. 对数字视频稳定中摄像机运动估计的进步做出贡献的一些主要工作总结

3.2 怎么确定不需要的运动

拍摄过程中因为不必要的抖动导致画质不好，这种运动需要确定，就是确定不需要的运动。

不需要的运动确认技术地图，主要讲了为了去除的不需要的运动部分以获得更平滑的路径中基于过滤的方法，基于插值的方法，基于优化的方法，并且给出了相应的描述和优缺点比较：

表 2. 有助于推动数字视频稳定中的无用运动确定的一些主要工作总结

3.3 稳定视图渲染

我们要处理一些丢失或者模糊的帧，也就是帧的修复。

稳定渲染的技术地图，主要讲了渲染稳定的帧中中基于填充的方法和基于裁剪的方法，并且给出了相应的描述和优缺点比较：

表 3. 推动数字视频稳定渲染新视图的一些主要工作总

4. 基于深度学习的方法

基于深度学习的视频稳定方法，大多数使用带有配对视频的数据集进行训练，其中每一对都有一个不稳定的和一个真实稳定的视频。在这种情况下，如下图所示，目标是找到一个网络，该网络从不稳定版本中预测帧，使其与稳定版本尽可能相似。

图中，基于深度学习的方法中常用的方法。不稳定的帧和一些时间信息提供给深度网络，以在训练/推理阶段预测稳定/稳定的帧。

深度学习数字视频稳定技术地图，这种方法没有明确地估计相机运动，但他们使用的是表观运动。通常，不需要的运动的确定和移除是隐式完成的：网络学习预测类似于真实稳定视频的视频，以下就是给出论文技术的盘点：

表 4. 基于深度神经网络执行数字视频稳定的方法总结

5. 结论

5.1 过去的回顾

这项工作对数字视频稳定文献中可用的方法进行了回顾。我们根据使用的方法对方法进行分类，无论是经典的还是基于深度学习的。经典方法分为三个主要阶段：（1）相机运动估计，（2）确定不需要的运动，以及（3）稳定帧的渲染。对于这些步骤中的每一个，我们定义并分类了这些方法。

5.2 本文结论

一些实际应用可以受益于数字视频稳定及其开发所产生的知识。
需要更好地定义使用这些方法的场景。
与其计算机视觉领域类似，深度学习已成为近年来视频稳定的趋势。
数字视频稳定文献中的关键点之一是还没有明确定义的评估指标。