AI エージェントは、複雑なタスクを達成するためにロボットをトレーニングする報酬アルゴリズムを自動的に生成するために LLM を活用
NVIDIA Research が開発した、ロボットに複雑なスキルを教えることができる新しい AI エージェントが、ロボット ハンドをトレーニングし、人間と同じようにペンを高速で回転させることに成功しました。
以下のビデオで紹介されている見事な手の動きは、ロボットをトレーニングするための報酬アルゴリズムを自律的に作成する Eureka により、ロボットが巧みにこなすことを学んだ 30 近いタスクのひとつです。
Eureka は、ロボットに引き出しやキャビネットを開けることや、ボールを投げたりキャッチしたりすること、ハサミの操作なども教えました。
本日公開された Eureka の研究には、論文とプロジェクトの AI アルゴリズムが含まれており、開発者は強化学習研究のための物理シミュレーション リファレンス アプリケーションである NVIDIA Isaac Gym を使用して実験を行うことができます。Isaac Gym は、OpenUSD フレームワークに基づいて 3D ツールやアプリケーションを構築するための開発プラットフォームである NVIDIA Omniverse 上に構築されています。Eureka 自体は、GPT-4 大規模言語モデルによって駆動しています。
NVIDIA の AI Research シニア ディレクターであり、Eureka の論文の著者である Anima Anandkumar は次のように述べています。「強化学習は過去 10 年間で目覚ましい成果を上げてきましたが、トライアンドエラー プロセスにある報酬の設計など、まだ多くの課題が残っています。Eureka は、難しい課題を解決するために、生成学習と強化学習の手法を統合した新しいアルゴリズムを開発するための第一歩です」
AI がロボットをトレーニング
論文によると、ロボットのトライアンドエラー学習を可能にする Eureka が生成した報酬プログラムは、80% 以上のタスクにおいて、人間が書いた専門的な報酬プログラムよりも優れていました。この結果、ロボットの平均的なパフォーマンスは 50% 以上向上しました。
この AI エージェントは、GPT-4 LLM と生成 AI を利用して、ロボットに強化学習の報酬を与えるソフトウェア コードを記述します。タスク固有のプロンプトや事前に定義された報酬テンプレートを必要とせず、開発者のビジョンにより正確に一致した結果を得るために報酬を修正する人間のフィードバックを容易に取り入れることができます。
Eureka は、Isaac Gym 内で GPU アクセラレーテッド シミュレーションを使用することで、大量の報酬候補の質を迅速に評価することができ、より効率的なトレーニングを行います。
Eureka は次に、トレーニング結果から主要な統計情報の要約を作成し、報酬関数の生成を改善するよう LLM に指示をします。このようにして、AI は自ら改善していきます。四足歩行、二足歩行、クアドローター、器用な手、コボット アームなど、あらゆるロボットに多様なタスクを達成するよう教えています。
この研究論文では、ロボット ハンドに幅広く複雑な操作スキルを要求するオープンソースの器用さのベンチマークに基づき、Eureka でトレーニングされた 20 のタスクを詳細に評価しています。
Isaac Gym 環境から得られた 9 つの結果は、NVIDIA Omniverse を使用して生成されたビジュアルで示されています。
本プロジェクトの一人者であり NVIDIA のシニア リサーチ サイエンティストである Jim Fan は次のように述べています。「Eureka は、大規模言語モデルと NVIDIA GPU アクセラーテッド シミュレーション テクノロジのユニークな組み合わせです。私たちは、Eureka が器用なロボット制御を可能にし、アーティストのために物理的にリアルなアニメーションを制作する新しい方法を提供すると信じています」
GPT-4 で構築され、自律的に『Minecraft』をプレイできる AI エージェントである Voyager のような最近の NVIDIA Research の進歩に加わる、開発者の心を動かす可能性を秘めた画期的な研究です。
NVIDIA Research は、AI、コンピュータ グラフィックス、コンピュータ ビジョン、自動運転車、ロボティクスなどのトピックに焦点を当てたチームを擁し、世界中で数百人の科学者とエンジニアで構成されています。
Eureka と NVIDIA Research の詳細についてはこちらをご覧ください。