本稿は、長年のテクノロジ・ジャーナリストであるマイケル・コープランド(Michael Copeland)氏がディープラーニングの基本を説明する一連の記事の第一弾です。
「人工知能は未来のテクノロジだ」、「人工知能はサイエンス・フィクションだ」、「人工知能はすでに私たちの日常生活の一部だ」――これらの説明はすべて事実であり、単にAIのどの面を指して言っているかによります。
たとえば、今年、Google DeepMindが開発したプログラム「アルファ碁」(AlphaGo)が囲碁の対局で韓国のプロ棋士イ・セドル(Lee Se-dol)氏を破った際に、DeepMindが勝った経緯を説明するため、「AI」、「機械学習」、「ディープラーニング」という言葉がメディアでさかんに取り上げられました。この3つは、どれもアルファ碁がイ・セドル棋士を打ち負かした理由の一部ですが、同じものではありません。
その関係を考えるとき、同心円で表すのが一番簡単でしょう。まず、最初に生まれたアイデアが「AI」です。これは、もっとも包括的な概念です。次に、「機械学習」が発展し、最後に「ディープラーニング」が登場しました。今日のAIの急速な成長を促すディープラーニングは、AIと機械学習に含まれています。
栄枯盛衰を繰り返したAIの歴史
AIは人間の創造力の産物です。1956年に開催されたダートマス会議でAIの名の下に数名のコンピューター科学者が集まり、AIという分野を確立して以来、さまざまな研究所で本格的な研究が進められるようになりました。その後、数十年の間に、AIは「人類の文明化におけるきわめて明るい未来への鍵」として歓迎されることも、「テクノロジの流行に弱い科学者の無謀な概念」として無用の長物のように扱われることもありました。要するに、2012年までは栄枯盛衰を繰り返してきたというわけです。
しかし、ここ数年(特に2015年以降)、AIは急速な成長を遂げることになります。その理由の大半は、かつてないほど速く、安く、強力な並列処理を実現できるGPUの普及によるものです。また、「実質的に無限のストレージ」と、「イメージ、テキスト、トランザクション、マッピング・データなど、あらゆる種類の膨大なデータ(あるいは、そうしたビッグデータ全体の動き)」という2つの重要な要素が同時に登場したことにも関係しています。
それでは、2012年までの低迷の時代から、何億もの人々が日々使用するさまざまな応用分野を生み出したブームへの変遷におけるコンピューター科学者の歩みを見ていきましょう。
人工知能 – マシンによって再現される人間の知能
ダートマス会議が行われた1956年夏にまで遡ると、会議を提案したAIの先駆者たちの夢は、「台頭しつつあるコンピューターによって実現できる、人間の知能と同じ特徴を持つ複雑なマシンを構築すること」でした。これは、「汎用AI」(General AI)――つまり、人間のあらゆる(あるいはそれ以上の)感覚と、あらゆる判断力を備え、人間と同じように考える、驚異のマシン――として私たちが考えるものです。このようなマシンは、さまざまな映画で(ときにスター・ウォーズの「C-3PO」のような「友」として、ときに「ターミネーター」のような「敵」として)際限なく描かれてきました。汎用AIマシンが映画やサイエンス・フィクション小説でいまだに登場するのには、もっともな理由があります。なぜなら、人類はそれらを(少なくともまだ)実現できていないからです。
これまでに人類が実現したことは、「特化型AI」(Narrow AI)の概念に当てはまります。これは、特定のタスクについて、人間と同等(あるいはそれ以上)の処理をこなすことができるテクノロジです。特化型AIの例としては、Pinterestなどのサービスでの画像分類や、Facebookでの顔認識といったものが挙げられます。
これらは実用化されている特化型AIの例であり、このようなテクノロジは人間の知能の特定の側面を再現するものです。では、その知能はどのように実現され、どこからくるのでしょうか?そこで、話は次の円である「機械学習」へと移ります。
機械学習 – 人工知能を実現するためのアプローチ
本質的に「機械学習」とは、世の中の特定の事象についてデータを解析し、その結果から学習して、判断や予測を行うためのアルゴリズムを使用する手法だといえます。つまり、機械学習では、特定のタスクを完了するための明確な手順に沿って手作業でソフトウェア・ルーチンをコーディングするのではなく、大量のデータと、タスクを実行する方法を学習できる能力を提供するアルゴリズムに基づいて、マシンの「トレーニング」が行われます。
機械学習は、初期のAI研究者の精神から直接生まれたものですが、年月とともに、そのアルゴリズムによるアプローチには、決定木学習や、帰納論理プログラミング、クラスタリング、強化学習、ベイジアン・ネットワークをはじめとする手法が取り入れられました。ご存知のように、どれも汎用AIの最終的な目標を達成するものではなく、初期の機械学習アプローチでは特化型AIさえほとんど実現されていませんでした。
結局のところ、機械学習の最適な応用分野の1つは長年にわたり「コンピューター・ビジョン」でしたが、それでもそのジョブを完了するにはかなりの手作業によるコーディングが必要でした。たとえば、一時停止の道路標識を識別させる場合、プログラムがオブジェクトの開始位置と終了位置を特定できるようにするためのエッジ検出フィルターや、八角形かどうかを判断するための形状検出、「S-T-O-P」という文字を認識するための分類子など、さまざまな分類子を手作業でコーディングする必要がありました。そして、それらすべての分類子から、画像の意味を理解し、「学習」して、それが一時停止標識かどうかを判断するためのアルゴリズムを人が開発していました。
この手法は悪くはありませんが、驚くほどすばらしいものでもありません。特に霧の深い日に標識がはっきりと見えない場合や、木で標識の一部が隠れてしまっている場合には問題が生じます。つい最近までコンピューター・ビジョンや画像検出が人間に対抗できるほど進化しなかった理由は、きわめて不安定で、エラーを起こしやかったためです。
しかし、時間と、そして適切な学習アルゴリズムが、状況を一変させました。
ディープラーニング – 機械学習を実装するための手法
初期の機械学習研究者によって生み出された別のアルゴリズム・アプローチに「人工ニューラル・ネットワーク」がありますが、数十年の間に現れてはその大半が消えていきました。ニューラル・ネットワークは、人間の脳の生物学的しくみ(ニューロン間のあらゆる相互接続)の理解から着想を得たものです。ただし、すべてのニューロンが特定の物理的範囲内にある他のどのニューロンにも接続できる生物学的な脳とは異なり、人工ニューラル・ネットワークでは、データの伝達において、層、接続、方向が個別に定義されます。
たとえば、画像を抽出し、それを多数のタイルに分けて、ニューラル・ネットワークの最初の層に入力するとします。最初の層の個々のニューロンによって2つ目の層にデータが渡されます。2つ目のニューロン層で所定のタスクが実行され、以降、最後の層にデータが渡され、最終的な出力が生成されるまで同様の処理が繰り返されます。
各ニューロンは、それぞれの入力に対して重み(実行されるタスクに対する正誤の確率)を割り当てます。そして、最終的な出力がそれらの重みの合計によって決まります。では、先ほどの一時停止標識の例を考えてみましょう。一時停止標識の画像の属性が細かく分けられ、ニューロンによって「検証」されます(たとえば、その八角形の形状、真っ赤な色、特有の文字、道路標識サイズ、動いているかどうか、など)。ニューラル・ネットワークのタスクは、それが一時停止標識かどうかを割り出し、重みに基づいて「確率ベクトル」(非常に高度な知見によって裏付けられた推測)を提示します。たとえば、この例でいうと、システムは画像が一時停止標識である確率が86%、制限速度標識である確率が7%、木に引っ掛かった凧である可能性が5%であるといった具合に提示するでしょう。そして、ネットワーク・アーキテクチャが、ニューラル・ネットワークにそれが正しいかどうかを伝えます。
さらに言えば、つい最近まで、ニューラル・ネットワークはAI研究コミュニティからほぼ敬遠されていたので、この例は先走りすぎかもしれません。AIの草創期から存在したニューラル・ネットワークですが、これまでほとんど「知能」を生み出してきませんでした。問題は、もっとも基本的なニューラル・ネットワークでさえ計算処理上の要求が非常に高く、単純に実用的なアプローチではなかったということにあります。それでもなお、トロント大学のジェフリー・ヒントン(Geoffrey Hinton)氏率いる異端研究の少人数グループはあきらめずに研究を続け、ついにスーパーコンピューターでの実行に対応したアルゴリズムの並列化に成功し、その概念を実証しました。ただし、その目標を実現できたのは、GPUを研究に導入してからのことです。
再び一時停止標識の例に戻ると、ネットワークの最適化、つまり「トレーニング」を行っている間は、間違った答えを(大量に)示す可能性が大いにあります。その解決には、トレーニングあるのみです。ニューロンの入力に対する重みが徹底して最適化され、霧の有無や、晴れか雨かにかかわらず、ほぼ毎回正しい答えを出せるようになるまで、何十万枚、あるいは何百万枚もの画像を読み込む必要があります。そうすることで、ニューロン・ネットワークは一時停止標識の見た目を独習できるようになるわけです。これは、Facebookの場合なら母親の顔、あるいは、2012年にアンドリュー・ウン(Andrew Ng)氏がGoogleで成功させた猫にも当てはまります。
ウン氏の画期的なアプローチとは、そうしたニューラル・ネットワークを利用して、本質的にそれらを大幅に拡大し、層とニューロンを増やして、膨大なデータをシステムで処理することで、システムのトレーニングを行うというものです。ウン氏の場合、それは1,000万本のYouTubeビデオの画像でした。同氏は、ディープラーニングにニューラル・ネットワークのすべての層を表す「ディープ」(深層)を取り入れたのです。
現在、いくつかのシナリオでは、ディープラーニングを利用してトレーニングが行われたマシンによる画像認識が人間の能力を超えるまでになっています。その範囲は、猫から、MRIスキャンでの腫瘍や血液におけるがんの手掛かりの特定まで、多岐にわたります。また、Googleのアルファ碁は、囲碁を学習し、アルファ碁自身との対局を何度も繰り返してトレーニングを行い、そのニューラル・ネットワークを最適化しました。
ディープラーニングがAIに明るい未来をもたらす
ディープラーニングによって、機械学習、ひいてはAI分野全体の実用的応用が数多く実現しました。ディープラーニングでは、マシンによるあらゆる種類の支援が可能になる(あるいは、期待できる)方法でタスクを分類できます。無人自動車、より予防効果の高い医療、あるいは、より的確な映画の提案は、どれもすでに実用化されているか、今後の実用化が見込まれるものです。AIは、現在および未来のテクノロジです。ディープラーニングの助けを借りることで、AIは人類が長らく思い描いてきたサイエンス・フィクションの状態に、より近づくことができるでしょう。誰もがC-3POを友に持ち、自分だけのターミネーターを手に入れることができるに違いありません。