NVIDIA が Computer Vision and Pattern Recognition カンファレンスで、自律走行車開発のための画期的なアクセラレーテッド コンピューティングと生成 AI を披露。
自動運転車の開発を加速させるべく取り組んでいる NVIDIA は、シアトルで開催された Computer Vision and Pattern Recognition (CVPR) カンファレンスにて、Autonomous Grand Challenge の優勝者に選ばれました。
昨年の 3D Occupancy Prediction 部門での優勝に続き、NVIDIA Research は今年、End-to-End Driving at Scale 部門で Hydra-MDP モデルを利用し、全世界からの 400 件を超えるエントリーを上回る好成績を収め、リーダーボードのトップに立ちました。
このマイルストーンは、自律走行車 (AV) の開発における 物理 AI の展開のためのアプリケーション構築において、生成 AI の重要性を示しています。このテクノロジは、産業環境、ヘルスケア、ロボティクスなどの分野にも応用できます。
優勝したモデルは、CVPR の Innovation Award も受賞しました。「学習されたオープンループのプロキシ メトリクスを使用して、あらゆるエンドツーエンド運転モデル」を改善する NVIDIA のアプローチが高く評価されたのです。
さらに NVIDIA は、NVIDIA Omniverse Cloud Sensor RTX を発表しました。この一連のマイクロサービスは、物理的に正確なセンサー シミュレーションを実現することで、あらゆる種類の完全自律マシンの開発を加速させます。
エンドツーエンド運転の仕組み
自動運転車の開発競争は、短距離走ではなく、終わりのないトライアスロンのようなものです。それは、AI のトレーニング、シミュレーション、そして自律走行という、3 つの異なる、しかし極めて重要な要素が同時に機能するからです。それぞれが独自のアクセラレーテッド コンピューティング プラットフォームを必要で、上記の各要素のために構築されたフルスタック システムは強力な三位一体を共に構成し、継続的な開発サイクルを実現し、パフォーマンスと安全性を高め続けます。
これを達成するために、まず NVIDIA DGX のような AI スーパーコンピューターでモデルのトレーニングが行われます。次に、NVIDIA Omniverse プラットフォームを使用し、NVIDIA OVX システム上でシミュレーションでテストと検証が実施されます。最後に実際の車両で NVIDIA DRIVE AGX プラットフォームを使用し、モデルを通してリアルタイムにセンサー データを処理します。
複雑な物理世界を安全にナビゲートする自律型システムを構築するのは、非常に困難です。システムは周囲の環境を包括的に認識して理解した後、適切かつ安全な判断を瞬時に下さなければなりません。そのためには、リスクのあるシナリオや稀なシナリオにも対応できる、人間のような状況認識力が必要となります。
従来の AV ソフトウェアの開発は、モジュール式のアプローチをベースとしており、物体の検出と追跡、軌道予測、および経路の計画と制御のために、それぞれ別個のコンポーネントが使われていました。
エンドツーエンドの自律走行システムは、センサー入力を取り込んで車両の軌道を生成する統合モデルを使用することで、このプロセスを合理化します。これにより、複雑すぎるパイプラインを避け、今まで以上に包括的なデータに基づくアプローチを可能にすることで、実世界のシナリオに対応します。
CVPR の Autonomous Grand Challenge の End-to-End Driving at Scale で優勝した Hydra-MDP モデルのビデオをご覧ください。
Grand Challenge でのナビゲーション
今年の CVPR チャレンジでは、nuPlan データセットを使用してトレーニングされたエンドツーエンドの AV モデルを開発し、センサー データに基づいて走行軌道を生成することが参加者に求められました。
これらのモデルは、提出後、オープンソースの NAVSIM シミュレーター内でテストされ、数千に及ぶ未経験のシナリオをナビゲートすることが課題とされました。モデルのパフォーマンスは、安全性、乗客の快適性、および記録された元の軌道からの逸脱度の指標に基づいて採点されました。
NVIDIA Research の優勝したエンドツーエンド モデルは、カメラと LiDAR のデータ、および車両の軌道履歴を取り込み、センサー入力後 5 秒間の安全かつ最適な車両経路を生成します。
NVIDIA の研究者が大会で勝つために使用したワークフローは、NVIDIA Omniverse を使用した高忠実度のシミュレーション環境で再現できます。これは、AV シミュレーション開発者が、実世界で AV のテストを行う前に、物理的に正確な環境でワークフローを再現できるということを意味します。NVIDIA Omniverse Cloud Sensor RTX マイクロサービスは、今年後半に利用可能になる予定です。早期アクセスにお申し込みください。
さらに NVIDIA は、CVPR の Autonomous Grand Challenge の Driving with Language にも参加し、2 位にランクインしました。この NVIDIA のアプローチは、ビジョン言語モデルと自律走行システムをつなぎ、大規模言語モデルの力を統合することにより、意思決定を支援し、一般化可能で説明可能な運転行動を実現します。
CVPR でさらに学ぶ
今年の CVPR では、自動車、ヘルスケア、ロボティクスなどの分野にわたる NVIDIA の論文 50 本以上が採択されました。以下を含む 10 本以上の論文で、NVIDIA の自動車関連の研究について触れられています。
- Hydra-MDP: End-to-End Multimodal Planning With Multi-Target Hydra-Distillation (Hydra-MDP: マルチターゲットの Hydra 蒸留によるエンドツーエンドのマルチモーダル プランニング)
- Producing and Leveraging Online Map Uncertainty in Trajectory Prediction (軌道予測におけるオンライン マップの不確実性の生成と活用)
- CVPR 最優秀論文賞ファイナリスト
- Driving Everywhere With Large Language Model Policy Adaptation (大規模言語モデルのポリシー適応によるどこでも運転)
- Is Ego Status All You Need for Open-Loop End-to-End Autonomous Driving? (オープンループのエンドツーエンド自律走行に必要なのは、エゴ ステータスだけか?)
- Improving Distant 3D Object Detection Using 2D Box Supervision (2D ボックス監視を用いた遠距離 3D 物体検出の改善)
- Dynamic LiDAR Resimulation Using Compositional Neural Fields (合成ニューラル フィールドを用いた動的な LiDAR 再シミュレーション)
- BEVNeXt: Reviving Dense BEV Frameworks for 3D Object Detection (BEVNeXt: 3D物体検出用の高密度 BEV フレームワークの再生)
- PARA-Drive: Parallelized Architecture for Real-Time Autonomous Driving (PARA-Drive: リアルタイム自律走行用の並列化アーキテクチャ)
NVIDIA の AI 研究担当バイス プレジデント、サンジャ フィドラー (Sanja Fidler) が、CVPR の Workshop on Autonomous Driving (自律運転ワークショップ) で、ビジョン言語モデルについて講演を行いました。
AI、コンピューター グラフィックス、コンピューター ビジョン、自動運転車、ロボティクスなどのトピックを専門とする数百人の科学者やエンジニアからなるグローバル チームである NVIDIA Research の詳細についてもお読みいただけます。
ソフトウェア製品情報に関するお知らせをご覧ください。