コンピューター ビジョンとは

投稿者: Scott Martin

畳み込みニューラルネットワークによって実現されるコンピューター ビジョンは、画像や映像を使ってセグメンテーション、分類、検出を行うことができるため、さまざまな分野に応用が利きます。

コンピューター ビジョンの精度が向上しています。野球の試合で投球判定を不服とするゼネラル マネージャーが審判相手に怒鳴り散らす日々も過去のものとなるかもしれません。

なぜならば、並列処理とともに画像分類技術が進化したことにより、コンピューターが 150 キロを超える速球を捉えることが可能になっているためです。それに加え、画像検出技術と組み合わせることで、ボールの位置を特定することができ、異議を唱える余地もないほど説得力ある審判ツールが開発されるまでになりました。

ただし、コンピューター ビジョンの用途は野球だけにとどまりません。

コンピューター ビジョンとは

「コンピューター ビジョン」とは、ディープ ニューラルネットワークを利用して多分野に応用できる人間並みの視覚能力を実現するために行われる処理を指す広義の用語であり、ほとんどの場合 NVIDIA GPU 上で実行されています。これには、データとして画像や映像を使ってセグメンテーション、分類、検出を行えるようにするためのニューラルネットワークの特殊なトレーニングも含まれます。

現在、米メジャー リーグでは、コンピューター ビジョンを取り入れた AI による審判補助システムを試験的に導入しています。わずか 0.4 秒でホーム ベースに届く投球のボールやストライクを見極めるのは、人間の目には容易いことではありません。毎秒 60 フレーム以上の速度で瞬時に判断を下せる NVIDIA GPU と画像ネットワークを組み合わせてカメラ フィードを処理することで、より正確な判定が得られることが期待されています。

ロンドン拠点の Hawk-Eye は、これをさまざまなスポーツで実現しようとしています。Hawk-Eye の NVIDIA GPU を利用したボール トラッキング技術と SMART ソフトウェアは、野球、バスケットボール、テニス、サッカー、クリケット、ホッケー、NASCAR (全米自動車レース) など、20 種を超える競技で採用されています。

しかしコンピューター ビジョンの用途は、スポーツでの判定だけに留まりません。

コンピューター ビジョンのスポーツ以外の用途

コンピューター ビジョンが処理できるタスクはまだまだこんなものではありません。畳み込みニューラルネットワークを用いて開発されたコンピューター ビジョンは、セグメンテーション、分類、検出を行うことができるため、さまざまな分野に応用が利きます。

コンピューター ビジョンの応用範囲は無限大です。スポーツ自動車農業小売銀行建設保険など、幅広い業界でコンピューター ビジョンが変革をもたらしており、多くの命運を握っています。

コンピューター ビジョンについて知るべき 3 つの技術

  • セグメンテーション: 画像セグメンテーションとは、ピクセルを分類して、車、道路、歩行者といった特定のカテゴリに分けることをいいます。NVIDIA DRIVE ソフトウェア スタックをはじめ自動運転車用途で道路、車、人などを示すのに広く利用されています。コンピューターの挙動を人にとって理解しやすくするための視覚化するための手法の一種だと考えてください。
  • 分類: 画像分類は、画像内に含まれている物体が何かを特定するために利用されています。ニューラルネットワークは、十分なデータがあれば、犬か猫などさまざまなものを高い精度で識別できるようにトレーニングすることが可能です。
  • 検出: 画像検出によってコンピューターは物体がどこに存在するかを把握できます。この技術では、境界ボックスと呼ばれる物体全体を囲う長方形が表示されます (メイン画像の下半分を参照)。検出技術は、たとえば画像内のどこに車や人が存在するかを示すようトレーニングすることが可能です (メイン画像の下半分の数字が振られた長方形を参照)。

セグメンテーション、分類、検出について知るべきポイント

セグメンテーション 分類 検出
物体の輪郭を描くのが得意 それは猫か犬か? それが空間内のどこにあるか?
自動運転車で使用される 高精度で分類 物体を認識して安全を確保

NVIDIA の Deep Learning Institute では、画像セグメンテーションの導入方法コンピューター ビジョン用ディープラーニングの基礎などについて学習できる各種コースをご用意しています。