NVIDIA は、シアトルにあるワシントン大学のキャンパスの近くに、新しいロボティクス研究の拠点となる、AI Robotics Research Lab を開設します。このラボは、NVIDIA のロボティクス研究担当 シニア ディレクターであり、ワシントン大学内の Paul G. Allen School of Computer Science and Engineering の教授も務めるディーター フォックス (Dieter Fox) によって率いられます。
このラボの目的は、人間と共に安全に作業するという複雑なマニピュレーション タスクを実行し、製造、物流、医療などの業界を変革する次世代のロボットを実現するために、ロボティクス分野における研究のブレイクスルーを推進することです。
フォックスは次のように述べています。「これまで、ロボティクスの研究では、総合的な統合システムよりも、小規模な独立プロジェクトに重点が置かれていました。このラボでは、ロボット制御および認知、コンピューター ビジョン、人間とロボット間の相互作用、ディープラーニングに関する協働的かつ多分野にまたがるエキスパートのチームを結成します。」
50 人近いリサーチ サイエンティスト、客員研究員、学生インターンが、上記の分野で基礎研究を行います。研究が実世界のロボティクスの課題から離れないよう、このラボでは、インタラクティブなマニピュレーションに関する大規模で現実的なシナリオに基づいて研究を進めます。
AI Robotics Research Lab での研究内容
まず最初に挑戦するシナリオは、実際のキッチンでモバイル マニピュレーターが、キャビネットから物体を取り出すことから、ダイニング テーブルを拭くといった、料理をする人をサポートするための様々なタスクをこなすことです。
1 月 11 日の一般公開イベントで、このシアトルのラボは、ラボに常設されたキッチンで最初のマニピュレーション システムのデモを行いました。モバイル マニピュレーターには、最新の物体検出および追跡技術が実装されており、キッチンのドアや引き出しの状態を把握しながら、必要な物体へアクセスするためにそれらのドアや引き出しの開閉を行います。、このようなアプローチは、対象とする物体やキッチン キャビネットの 3D モデルを用いるだけで、任意の環境で適用することができます。
NVIDIA が得意とする、写真のようにリアルな、物理ベースのシミュレーション技術を活用することにより、ロボットは、ディープラーニングを利用して、退屈な手作業のデータ ラベル付けを必要とせずに、独自のシミュレーションのみに基づいて特定の物体を検出します。NVIDIA の高度に並列化された GPU コンピューティングにより、ロボットは、正確な操作のためにセンサーのフィードバックを利用して、リアルタイムに環境を継続的に追跡し、環境の変化にすばやく適応できます。
このロボットは、ナビゲーションのために NVIDIA Jetson プラットフォームを利用し、NVIDIA TITAN GPU で処理と操作のための推論をリアルタイムで実行します。ディープラーニングに基づく認知システムの学習には、cuDNN によって最適化された PyTorch ディープラーニング フレームワークが使用されました。
このシステムの独自性は、ラボの研究員によって開発された一連の最新テクノロジを統合していることです。それらの最新テクノロジの連携により、ロボットが物体をつかんで別の場所に移動できるよう、物体を検出し、ドアと引き出しの位置を追跡し、制御コマンドを生成することができます。このシステムは、以下のテクノロジで構成および構築されています。
- DART (Dense Articulated Real-Time Tracking)ワシントン大学にあるフォックスのロボティクス研究所で最初に開発された DART は、デプス カメラを利用して、ロボットの周辺環境を継続的に追跡します。これは、コーヒーカップやシリアルの箱などの剛性の物体と、手やマニピュレーターを含む人間の体とロボットのボディ、家具および道具など、室内環境にあることが多い関節/連結部のある物体を追跡するための汎用フレームワークです。
- Pose-CNN: 6D 物体位置姿勢認識既知の物体の 6D 姿勢と方向を検出することは、環境内の物体をつかんで移動するロボットに不可欠な機能です。しかしながらこれは、照明条件の変化や乱雑に物体どうしが重なり合うといった複雑な状況において非常に難しい問題でもあります。Pose-CNN は、通常のカメラを使用してそのような条件下にある物体を検出するためにトレーニングされたディープ ニューラル ネットワークです。
- リアクティブ マニピュレーター制御のための RMP (Riemannian Motion Policies)RMP はシンプルなアクションのライブラリを複雑な動作へと一貫して結合する新しい数学フレームワークです。RMP を使用することにより、開発チームは、動的な環境内で物体および人間と安全に相互作用するために、Pose-CNN と DART からの検出情報と追跡情報を利用して、反応の早いコントローラーを効率的にプログラムできます。
- 写真のようにリアルな物理ベースのシミュレーションNVIDIA の Isaac Sim ツールにより、物体の視覚的特性のモデル化に加え、物体とマニピュレーター間の力と接触もモデル化するリアルなシミュレーション環境を生成できます。マニピュレーション システムをテストし、物体検出ネットワークの基礎を成す Pose-CNN をトレーニングするために、シミュレーションによって生成されたキッチンが利用されます。実際のロボットで実行した場合、このトレーニングと開発のプロセスにはコストと時間がかかります。物体と環境のシミュレーション モデルを利用できれば、トレーニングとテストをより効率的に実行することができ、貴重な開発期間の短縮につながります。
フォックスは次のように述べています。「私たちは、次世代のロボットを開発すべき時期が来ていると強く感じています。認知、制御、学習、シミュレーションに関する最新技術を統合することにより、世界中が直面している非常に難しい課題のいくつかを解決するための研究コミュニティーの一助となると考えます。」
NVIDIA のロボティクス研究の詳細については、こちら (英語) をご覧ください。