AI で既存の動画からスローモーション映像を生み出す

NVIDIA の研究者チームが、30 フレーム/秒の動画から高品質なスローモーション動画を生成することができるディープラーニングベースのシステムを開発しました。そのパフォーマンスは、同じ用途のさまざまな最先端手法をしのいでいます。チームは、ユタ州ソルトレークシティで今週開催されている年次カンファレンス「Computer Vision and Pattern Recognition (以下 CVPR)」でこの研究について発表します。

研究論文では、「人生には、わが子が初めて歩いた瞬間、スケートボードの高難度トリックが決まった瞬間、犬がボールをキャッチした瞬間など、肉眼ではっきりととらえることが難しく、スローモーションで撮影したくなる記念すべき瞬間が幾度も訪れる。携帯電話で 240 フレーム/秒の動画を撮影することは可能だが、すべてを高フレームレートで撮影するとモバイルデバイスのメモリを圧迫し、バッテリを大量に消費するため現実的でない」と説明しています。

この最新の研究によって、撮影された映像からスローモーション動画を生成できるようになります。

チームは、NVIDIA Tesla V100 GPU と cuDNN アクセラレーテッド PyTorch ディープラーニングフレームワークを使用して、日常やスポーツに関する活動を 240 フレーム/秒で撮影した 11,000 本を超える動画に基づきシステムのトレーニングを行った後、その畳み込みニューラルネットワークに追加フレームを予測させました。

また、システムの精度の検証には別のデータセットを使用しました。

その結果、低フレームレートで撮影された動画をより滑らかで鮮明なものにすることができました。

チームは、「私たちの手法では、空間的にも時間的にも整合のとれた中間フレームをいくつも生成できます。このマルチフレームアプローチは、最新のシングルフレーム手法よりも一貫して優れています」と報告しています。

この研究を実証するため、チームは「The Slow Mo Guys」 (主演のギャビンフリー (Gavin Free) 氏とその友人のダニエルグルッチー (Daniel Gruchy) 氏が手掛ける、スローモーションを使ったサイエンス & テクノロジエンターテイメントで人気の YouTube シリーズ) から一連のクリップを拝借し、さらに低速の動画を制作しました。

この手法では、人生の最も大切な瞬間が含まれる日常の動画を撮影して低速で再生し、お気に入りの映画のようなスローモーションシーンに仕立てることが可能で、緊張感や強調、期待感を加えることができます。

CVPR では、Huaizu Jiang、Deqing Sun、Varun Jampani、Ming-Hsuan Yang、Erik Learned-Miller、Jan Kautz をメンバーとするチームが、6 月 21 日 (火) 午後 2:50 ～ 4:30 (現地時間) に発表を行いました。