複雑な環境でロボットが能力を発揮できるようにするための新たなステップとして、NVIDIA のロボット工学の研究者チームが、ディープラーニングをベースとする今までにないシステムを開発しました。このシステムを搭載したロボットは、その周辺環境に存在する一般家庭にあるような物体を、つかんだり動かしたりするために感知することができます。この手法によって、一度認識した家庭の物体に対して、人に渡したり、人の手から取り上げたりといった、簡単なピック アンド プレース操作を行えるようになります。
NVIDIA の研究者チームが以前に開発したシステムに基づく今回の研究は、ロボットが標準の RGB カメラから周辺にある物体の配置を正確に推論できるようにするものです。ある物体が毎回同じ場所になくても、ロボットがその物体をうまく扱えるようにするためには、ロボットの視界にある物体の 3 次元における位置と向き 6-DoF (自由度) を認識することが非常に重要になります。
NVIDIA の主任研究科学者であるスタン バーチフィールド (Stan Birchfield) は、「チームの目標は、ロボットが安全かつ巧みに周辺環境と相互作用できるようにすることです。NVIDIA のアルゴリズムと、映像が 1 つあれば、ロボットは物体をつかんだり動かしたりするために、その物体の 3 次元における配置を推論できる」と説明します。
現存する最新の手法よりも安定して動作するこのアルゴリズムの目的は、コンピューター ビジョンとロボット工学における隔たりを解消することにあります。その隔たりとは、現在大半のロボットが、環境内の障害に対応するために必要な知覚を持っていないことからくるものです。今回の成果が重要なのは、(コンピューターによって生成された) 合成データだけを使ってトレーニングを行ったアルゴリズムが、標準ベンチマークを用いたいくつかの物体の位置推定において、本物の映像を使ってトレーニングを行った最先端のネットワークのパフォーマンスを、コンピューター ビジョンの世界で初めて上回ったことです。合成データは、ディープ ニューラル ネットワークのトレーニング用のラベル付きデータをほぼ無限に生成することが可能な点で、実際のデータより優れています。
バーチフィールドは次のように説明します。「現在販売されている産業用ロボットの大半は知覚を持たないため、周囲の世界を実際に認識しているわけではありません。NVIDIA は次世代ロボットの基礎づくりを進めており、今回の成果によって共同作業に適したロボットの実現にまた一歩近づきました。」
DGX Station に搭載された NVIDIA Tesla V100 GPU と、cuDNN アクセラレーテッド PyTorch ディープラーニング フレームワークを組み合わせて使用することで、研究者チームは、Unreal Engine 用に NVIDIA が開発したカスタム プラグインによって生成された合成データに基づき、ディープ ニューラル ネットワークのトレーニングを行いました。このプラグインは、他の研究者も利用できるよう公開されています。
研究者チームは論文で「具体的には、フォトリアリスティックでないドメイン ランダム化 (DR) データと、フォトリアリスティックなデータを組み合わせて使用することで、両方の長所を活かしている」と述べ、「この 2 種類のデータが相互に補完しあい、どちらか片方だけで達成できる結果よりもはるかに良い結果が得られる。また、合成データには、特定のデータセットの分布への過剰適合を防ぎ、照明の変化や、カメラの違い、さまざまな背景に対して安定して動作するネットワークを実現できるという利点もある」と説明しています。
推論は、NVIDIA TITAN X GPU で行われました。その推論コードも公開されています。
「NVIDIAは、実際のデータを使ってトレーニングを行ったネットワークと比べ、合成データだけを使ってトレーニングを行ったネットワークで最先端のパフォーマンスを達成できることを証明するとともに、認識した物体の配置がロボット操作に十分な精度であることも証明しました。」
この研究は、スイスのチューリッヒで開かれる Conference on Robot Learning (CoRL) で発表されました。
NVIDIA チームには、研究者としてジョナサン トレンブレイ (Jonathan Tremblay)、タン トゥ (Thang To)、バラクマル スンダラリンガム (Balakumar Sundaralingam)、ユ シャン (Yu Xiang)、ディーター フォックス (Dieter Fox)、およびスタン バーチフィールド (Stan Birchfield) が参加しました。