3 台のコンピューターによるソリューション: AI ロボットの次の波を推進

ヒューマノイドから工場まで、産業用の物理 AI ベースのシステムは、トレーニング、シミュレーション、推論のすべてを加速

ChatGPT が、生成 AI のビッグバンの瞬間をもたらしました。これを利用すればほぼどのような質問に対しても回答を得ることができ、それがコンテンツ制作、顧客サービス、ソフトウェア開発、ナレッジワーカーのビジネス運営といったデジタル業務の変革に役立ちます。

ヒューマノイド、工場、および産業用システム内のその他のデバイスにおける人工知能が具現化された物理 AI は、まだブレークスルーの瞬間を迎えていません。

このために、輸送とモビリティ、製造、物流、ロボティクスといった産業の発展が妨げられています。しかし、高度なトレーニング、シミュレーション、推論を統合した3 台のコンピューターによって、状況が今まさに変わろうとしています。

マルチモーダルな物理 AI の登場

60 年間にわたり、人間のプログラマーによって書かれたシリアルコードの「Software 1.0」が、CPU を搭載した汎用コンピューター上で実行されていました。

その後 2012 年に、Ilya Sutskever、Geoffrey Hinton 両氏の指導を受けた Alex Krizhevsky 氏が画像分類用の革命的ディープラーニングモデルである AlexNet を開発して、ImageNet コンピューター画像認識コンテストで優勝しました。

これが産業と AI との最初の接触となりました。GPU 上で稼働するニューラルネットワークである機械学習のブレークスルーにより、Software 2.0 の時代が一気に加速しました。

今日では、ソフトウェアがソフトウェアを書いています。世界のコンピューティングワークロードは、CPU による汎用コンピューティングから GPU によるアクセラレーテッドコンピューティングへと移行していて、ムーアの法則を大きく引き離しつつあります。

生成 AI では、マルチモーダルトランスフォーマーと拡散モデルが回答を生成するようにトレーニングが行われています。

大規模言語モデルは文字や単語のようなモードの 1 次元構造で、次のトークンを予測することができます。画像および動画生成モデルは 2 次元構造で、次のピクセルを予測することができます。

これらのモデルはいずれも、3 次元の世界を理解したり解釈したりすることはできません。そこで物理 AI が登場します。

物理 AI モデルは、生成 AI を利用して物理世界の認識、理解、対話、ナビゲートを行うことができます。アクセラレーテッドコンピューティングにより、マルチモーダルの物理 AI のブレークスルーと大規模な物理ベースのシミュレーションによって、ロボットを通じて物理 AI の価値を世界が気づくことができるようになりました。

ロボットは、認識、推論、計画、行動、および学習ができるシステムです。ロボットは、自律移動ロボット (AMR)、マニピュレーターアーム、あるいはヒューマノイドのことと思われがちです。しかし、ロボットの形態にはもっと多くのタイプがあります。

近い将来には、動くもの、または動くものを監視するものはすべて、自律型のロボットシステムになるでしょう。それらのシステムは、それぞれの環境を感知してそれに反応できるものになります。

手術室からデータセンター、倉庫から工場、さらには交通管制システムやスマートシティ全体までのあらゆるものが、静的な手動操作システムから、物理 AI によって具現化される自律した対話型システムに変化します。

次なるフロンティア: ヒューマノイドロボット

ヒューマノイドロボットは、人間向けに構築された環境で効率的に稼働できると同時に、配備や運用に必要な調整が最小限であるため、汎用ロボットの理想的な形態です。

Goldman Sachs によれば、ヒューマノイドロボットの世界市場は 2035 年までに 380 億ドルに達すると予想されており、2 年ほど前に同時期で予測された約 60 億ドルから、 6 倍以上に増加しています。

全世界の研究者や開発者が、このロボットの次の波を作り出そうと競い合っています。

物理 AI を開発するための 3 台のコンピューター

ヒューマノイドロボットを開発するには、物理 AI とロボットのトレーニング、シミュレーション、ランタイムを処理する 3 台のアクセラレーテッドコンピューターシステムが必要です。マルチモーダル基盤モデルと、ロボットおよびその世界のスケーラブルな物理ベースのシミュレーションという 2 つのコンピューティングの進歩により、ヒューマノイドロボット開発が加速しています。

生成 AI のブレークスルーにより、ロボットに 3 次元認識、制御、スキル計画、および知能がもたらされつつあります。大規模なロボットシミュレーションでは、開発者は物理法則を模倣した仮想世界でロボットスキルを改良、テスト、最適化を行うことになり、現実世界のデータ取得コストの削減が可能になるとともに、安全な管理環境で確実に行えるようになります。

NVIDIA は、開発者が物理 AI を作り出せるようにするために、3 台のコンピューターと加速された開発プラットフォームを構築しました。

最初に、スーパーコンピューター上でモデルのトレーニングが行われます。開発者は NVIDIA DGX プラットフォーム上の NVIDIA NeMo を利用して、パワフルな基盤および生成 AI モデルのトレーニングやファインチューニングを行うことができます。また開発者は、ヒューマノイドロボットが自然言語を理解し、人間の行動を観察して動きをエミュレートすることができるようにするための、汎用的な基盤モデルの開発に向けた取り組みである NVIDIA Project GR00T を活用することもできます。

次に、NVIDIA OVX サーバー上で動作する NVIDIA Omniverse は NVIDIA Isaac Sim などのアプリケーションプログラミングインターフェイスおよびフレームワークを利用して物理 AI のテストや最適化を行うための、開発プラットフォームとシミュレーション環境を提供します。

開発者は Isaac Sim を利用して、ロボットモデルのシミュレーションや検証を行ったり、ロボットモデルのトレーニングをブートするための大量の物理ベースの合成データを生成したりすることができます。研究者や開発者は、ロボットの強化学習や模倣学習を強化するオープンソースのロボット学習フレームワークである NVIDIA Isaac Lab を利用して、ロボットポリシーのトレーニングや改良を加速することもできます。

最後に、トレーニングされた AI モデルがランタイムコンピューターに展開されます。NVIDIA Jetson Thor ロボットコンピューターは、コンパクトなオンボードコンピューティングのニーズに合わせて特別に設計されています。制御ポリシー、ビジョン、言語モデルから成るモデルの集合体が、ロボットの頭脳を構成し、電力効率の高いオンボードのエッジコンピューティングシステム上に展開されます。

ロボットメーカーおよび基盤モデル開発者は、ワークフローや課題領域に応じて、必要な数のアクセラレーテッドコンピューティングプラットフォームとシステムを利用できます。

次世代の自律型施設の構築

ロボット施設は、これらすべてのテクノロジの集大成です。

Foxconn のようなメーカーや Amazon Robotics のような物流会社は、自律型ロボットのチームを編成して人間の作業者と一緒に働かせ、数百または数千のセンサーを通じて工場の操業を監視できます。

こうした自律型の倉庫、プラント、工場は、デジタルツインを備えることになります。デジタルツインは、レイアウトのプランニングおよび最適化、業務のシミュレーション、そして最も重要なロボット群のソフトウェアインザループのテストに利用されます。

Omniverse 上に構築された「Mega」は、工場のデジタルツインのブループリントであり、産業企業はロボット群を実際の工場に配備する前にシミュレーションでテストして最適化することができます。これは、シームレスな統合、最適なパフォーマンス、中断の最小化を確実にするのに役立ちます。

Mega を使用することで、開発者は工場のデジタルツインに仮想ロボットやその AI モデル、あるいはロボットの頭脳を組み込むことができます。デジタルツインの中のロボットは、環境を認識し、推論し、次の動作を計画し、最後に計画されたアクションを完了することでタスクを実行します。

これらのアクションは、Omniverse のワールドシミュレーターによってデジタル環境でシミュレーションされ、その結果は Omniverse センサーシミュレーションを通じてロボットの頭脳によって認識されます。

センサーシミュレーションによってロボットの頭脳は次のアクションを決定し、ループが継続されます。その間、Mega が工場のデジタルツイン内のすべての要素の状態と位置を綿密に追跡します。

この高度なソフトウェアインザループのテスト方法によって、産業企業は Omniverse デジタルツインの安全な領域内で変更のシミュレーションと検証を行うことができ、潜在的な問題を予測して軽減し、実際の配備の際のリスクとコストを削減できます。

NVIDIA テクノロジで開発者エコシステムを強化

NVIDIAは、3 台のコンピューターで、ロボット開発者およびロボット基盤モデル構築者のグローバルエコシステムの業務を加速します。

Teradyne Robotics 傘下の Universal Robots は、NVIDIA Isaac Manipulator、Isaac アクセラレーテッドライブラリと AI モデル、および NVIDIA Jetson Orin を利用して、コボット (協働ロボット) 開発者のアプリケーションの構築、開発の加速化、および AI 製品の市場投入までの時間短縮を可能にする、すぐに使えるハードウェアおよびソフトウェアツールキットの UR AI Accelerator を構築しました。

RGo Robotics は NVIDIA Isaac Perceptor を利用して、wheel.me の AMR をいつどこででも作動作し、人間のような認識力と視覚空間情報を与えることでインテリジェントな決定を行えるようにしました。

1X Technologies、Agility Robotics、Apptronik、Boston Dynamics、Fourier、Galbot、Mentee、Sanctuary AI、Unitree Robotics、XPENG Robotics などのヒューマノイドロボットメーカーは、NVIDIA のロボット開発プラットフォームを採用しています。

Boston Dynamics は Isaac Sim および Isaac Lab を利用して、人間の生産性を高め、労働力不足への対処、倉庫の安全性の優先のために、四足歩行ロボットおよびヒューマノイドロボットの構築を進めています。

Fourier は Isaac Sim を活用して、科学研究、医療、製造といった高度な相互作用や適応性が要求される分野で運用できるように、ヒューマノイドロボットをトレーニングしています。

Galbot は Isaac Lab および Isaac Sim を利用して、さまざまな精密ロボットハンドに応用できる DexGraspNet と呼ばれる大規模なロボット精密把持データセット、ならびに精密把持モデルを評価するためのシミュレーション環境の開発を進めました。

Field AI は、Isaac プラットフォームおよび Isaac Lab を利用して、ロボットが屋外環境で安全に作動するようにするための、リスク限定的なマルチタスク多目的基盤モデルを開発しました。

物理 AI の時代はすでに到来しており、それによって世界の重工業およびロボティクスに変革がもたらされつつあります。

NVIDIAのロボティクスの取り組みについてのさらなる詳細はこちらをご覧ください。