DRIVE ラボ: RNN で未来を予測する

投稿者: Neda Cvijetic

ディープラーニングに時系列情報を加えることで、自律走行車が周囲の交通状況に対して未来の動きを予測できるように

編注: これは「NVIDIA DRIVE ラボ」シリーズの4本目のブログです。このシリーズでは、自律走行車にまつわるさまざまな課題、および NVIDIA DRIVE AV ソフトウェア チームがそれらにどのように対処しているかについて、エンジニアの観点から迫ります。

ミッション: 物体の未来の動きを予測すること

アプローチ: リカレント ニューラルネットワーク (RNN)

不注意なドライバーがいきなり車線変更してきたり、駐車車両の間から歩行者が飛び出してきたり、運転していると予測できないことが起こるものです。運転中は、そのような思いもよらない動きを考慮して、さまざまな未来を想定しておく必要があります。

前を走る車が車線変更するかどうか、歩行者が道路を渡ろうとするかどうかを正確に予測できれば、私たちは自分がどう動くべきかについて、最善の計画を立てられるようになります。

こうした課題は自律走行車にとっても同じです。自律走行車の場合は、物体がどのような動きを見せるかを事前に計算するために、さまざまなコンピューティング手法やセンサー データを使います。画像シーケンスもその 1 つです。このような時系列情報を自律走行車に取り入れることで、周囲の交通状況に対して未来の動きを正確に予測し、必要に応じて軌道を調整することが可能になります。

ここで鍵となるのは、不確実なことや予測しがたいことがあっても正確に未来の動きを予測できるように、画像シーケンスに含まれる時系列情報を分析することです。

そのような分析を行うために使用するのが、シーケンシャル (連続的) なデータを使うディープ ニューラルネットワークの一種であるリカレント ニューラルネットワーク (RNN) です。

RNN とは?

一般的な畳み込みニューラルネットワーク (CNN) では、特定の画像フレームに含まれる情報を前のフレームから学習した情報とは切り離して処理します。一方、RNN の構造では「記憶」がサポートされており、未来の予測を割り出す際に過去の洞察を利用できるようになっています。

このように RNN は、時系列に沿った画像シーケンス (つまり映像) の取り込みに向いた性質を備えており、最先端の時系列予測を行うことができます。

大量の時系列データから学習する能力を持つ RNN には、重要な長所があります。画像に含まれる局所的な、フレームごとの、ピクセルに基づく変化だけに依存しないため、歩行者や動物といった静止していない物体の動きに対する予測の安定性が上がるという点です。

また RNN を用いれば、特定の物体の未来の動き (つまり、未来の位置や速度) を予測する際に、その物体が周囲の静止物に対してどのように動きそうかといった文脈情報を利用できるようにもなります。

RNN のトレーニングにクロスセンサー データを使用

レーダー センサーやライダー センサーは物体の速度を測定するのにとても適しています。そのため、NVIDIAのアプローチでは、人がラベル付けしたカメラ画像から正解 (グラウンド トゥルース) 情報を抽出しようとするのではなく、両センサーからのデータをその情報の生成に使用して、物体の速度を予測する RNN のトレーニングを行っています。

白枠は RNN が予測した物体の現在位置を示しているのに対し、黄色枠は RNN が予測するこれらの物体の移動後の未来位置を示しています。

具体的には、ライダー センサーとレーダー センサーの情報をカメラ処理領域に伝え、カメラ画像に速度データのラベルを付けます。このようにクロスセンサーとの融合を利用することで、RNN のトレーニング用に正解情報を生成する、自動化されたデータ パイプラインを構築することができます。

RNN の出力情報は、現在のシーン内で検知した動く物体それぞれ (車や歩行者など) に対する衝突までの余裕時間 (TTC)、未来位置、および未来の速度の予測から成ります。これらの出力は、自動クルーズ コントロールや自動緊急ブレーキといった、自律走行車の「縦方向」の制御機能に不可欠な入力情報となります。

このように RNN の過去を学習する能力によって、より安全な自律走行車の未来を実現できます。

DRIVEラボシリーズの他のブログは、以下よりご覧ください。