Transformer モデルは、文章に含まれる単語のように、 連続したデータの関係を追跡することによって、文脈ひいては意味を学習するニューラルネットワークです。
来るべき AI のビッグウェーブに乗りたいなら、Transformer は押さえておくべきです。と言っても、テレビでよく見る変形するおもちゃのロボットでも、電柱の上に取り付けられたごみ箱大の容器でもありません。
Transformer モデルとは?
Transformer モデルは、この文章に含まれる単語のように、連続したデータの関係を追跡することによって、文脈ひいては意味を学習するニューラルネットワークです。
Transformer モデルは、進化する一連の数学的手法 (アテンションまたはセルフアテンションと呼ばれます) を適用して、同じ系内にある隔たったデータ要素間の微妙な相互影響や相互依存関係を見つけます。
Google が 2017 年に発表した論文で初めて登場した Transformer は、これまでに発明されたモデルの中で最も新しく強力なものの 1 つであり、Transformer AI と呼ばれることもある機械学習の進歩を牽引しています。
スタンフォード大学の研究者は、2021 年 8 月に発表した論文の中で Transformer を「基盤モデル」と呼び、Transformer が AI のパラダイム シフトをもたらすと気付いていました。「ここ数年の基盤モデルのスケールと範囲の大きさを考えると、実現可能なことについての我々の想像力は膨らんだ」と書いています。
TTransformer モデルで何ができるのか?
Transformer は、聴覚障害者などの多様な人々が参加する会議や教室で、テキストや音声をほぼリアルタイムで変換しています。
また、研究者が DNA の遺伝子鎖、タンパク質やアミノ酸鎖を理解する助けとなり、医薬品設計を加速させるのに役立っています。
Transformer は、トレンドや異常検知、不正行為の防止、製造の合理化、オンライン レコメンデーションの実現、ヘルスケアの改善などに役立てることができます。
一般の人々も、Google や Microsoft Bing で検索するときは必ず Transformer を使用しています。
Transformer AI の好循環
連続したテキスト、画像、またはビデオ データを使用するあらゆる用途が、Transformer モデルのアプリケーション候補となります。
そのため、これらのモデルは Transformer AI の好循環に乗ることができます。つまり、大規模データセットで作成された Transformer は正確な予測を行うことで、その用途が広がり、さらに優れたモデルを作成するために使用できるデータを生成します。
NVIDIA の創業者/CEO であるジェンスン フアン (Jensen Huang) は、GTC の基調講演の中で「Transformer によって自己教師あり学習が実現し、AI は飛躍を遂げた」と述べています。
Transformer が CNN や RNN に取って代わる
Transformer は、多くの事例において、ほんの 5 年前まで最も一般的なディープラーニング モデルだった畳み込みニューラルネットワーク (CNN) や回帰型ニューラルネットワーク (RNN) に取って代わりつつあります。
事実、この 2 年間で arXiv に投稿された AI に関する論文の 70% が Transformer について言及しています。IEEE が 2017 年に実施した調査では、RNN と CNN が最も一般的なパターン認識モデルであると報告されたことを考えると、これは劇的な変化です。
ラベル不要でパフォーマンス向上
Transformer が登場する以前のニューラルネットワークは、大規模なラベル付きデータセットでトレーニングしなければならず、その生成には多大なコストと時間が必要でした。Transformer は、要素間のパターンを数学的に発見することでその必要をなくし、Web 上や企業データベース内に存在する膨大な数の画像やテキスト データを利用できます。
しかも、Transformer が使用する計算は並列処理に適しているため、モデルの高速実行が可能です。
今や、2019 年に開発された言語処理システム用ベンチマークである SuperGLUE のような一般的なパフォーマンス ベンチマークは、Transformer が席巻しています。
Transformer が注目される理由
ほとんどのニューラルネットワークと同様に、Transformer モデルは基本的にデータを処理する大規模なエンコーダー/デコーダー ブロックです。
このブロックに戦略的に加えた小さな仕組み (下図参照) が、Transformer を他に類をみないほどパワフルなものにしています。
Transformer は位置エンコーダーを使用して、ネットワークを出入りするデータ要素にタグを付けます。アテンション ユニットはそれらのタグに従って、各要素間の相互関係を表す代数マップのようなものを計算します。
アテンション クエリは通常、マルチヘッド アテンションと呼ばれるもので方程式の行列を計算することによって並列実行されます。
これらのツールにより、コンピューターは人間が認識するパターンを認識することができます。
セルフアテンションが意味を見いだす
例えば、
She poured water from the pitcher to the cup until it was full. (彼女は水差しからコップに、いっぱいになるまで水を注いだ。)
というセンテンスでは、「it」は当然コップを指しています。それに対し、
She poured water from the pitcher to the cup until it was empty. (彼女は水差しからコップに、空になるまで水を注いだ。)
というセンテンスでは、「it」は水差しを指しています。
「意味は物事間の関係の結果であり、セルフアテンションは関係を学習する一般的な方法です」と語るのは、2017 年の独創的な論文で研究を指揮した、元 Google Brain シニア スタッフ リサーチ サイエンティストであるアシシュ ヴァスワニ (Ashish Vaswani) 氏です。
「機械翻訳は、単語間の短距離と長距離の関係が必要なため、セルフアテンションの検証手段として役立ちました」とヴァスワニ氏は言います。
そして、「今ではセルフアテンションは強力で柔軟な学習ツールだと考えています」と付け加えました。
Transformer の名前の由来
アテンションは Transformer にとって非常に重要であるため、Google の研究者の間では 2017 年のモデルの名前として採用することがほぼ決まりかけていました。
「アテンション ネットは、あまり響きが良くありませんでした」と、2011 年からニューラルネットワークの研究を始めたヴァスワニ (Vaswani) 氏は言います。
そうこうしているうちに、チームのシニア ソフトウェア エンジニアであるヤコブ ウスコライト (Jakob Uszkoreit) 氏が Transformer という名前を思いつきました。
「私は、私たちは表現をトランスフォームしていると反論しましたが、単なる意味付けにすぎませんでした」とヴァスワニ氏は回想します。
Transformer の誕生
Google チームは、2017 年の NeurIPS カンファレンスで発表した論文の中で、その Transformer と機械翻訳で記録した精度について論じました。
さまざまなテクニックのおかげで、彼らは 8 基の NVIDIA GPU を使って、わずか 3.5 日でモデルのトレーニングを終えました。これは、従来のモデルのトレーニングに要する時間とコストをはるかに下回る数字でした。トレーニングには、数十億組の単語の組み合わせを含むデータセットを使用しました。
「論文提出期限前の 3 カ月間のラストスパートは大変でした」そう振り返るのは 2017 年当時、Google のインターンとしてこの研究に参加したエイダン ゴメス (Aidan Gomez) 氏です。
「提出期限当日、アシシュと私は会社に残って徹夜作業でした。私が小会議室で仮眠を取っていたところ、早めに出社した誰かがドアを開けて私の頭に当たりました。それで私は目を覚まし、提出に間に合わせることができました」とゴメス氏は語ります。
それは、いろいろな意味で「モーニング コール」となりました。
「その夜、アシシュはこれが現状を打破するような偉業になるという確信があると言いました。私には確信はありませんでした。ベンチマークでそこそこのスコアは出るだろうとは思っていましたが、結局は彼の言葉の方が正しかったということです」と、現在は Transformer をベースにした言語処理サービスを提供するスタートアップ企業である Cohere で CEO を務めるゴメス氏は語ります。
機械学習にとっての大きな節目
ヴァスワニ氏は、CNN を使用した Facebook チームが発表した同様の研究を上回る結果を目にしたときの興奮を振り返ります。
「私には、これが機械学習にとって大きな節目になるはずだということがわかりました」と彼は語ります。
翌年、別の Google チームが Transformer によるテキスト シーケンスの順方向処理と逆方向処理に挑戦しました。その結果、捉えることができる単語間の関係が増え、センテンスの意味を理解する能力の向上につながりました。
その BERT (Bidirectional Encoder Representations from Transformers) モデルは、11 の新記録を打ち立て、Google 検索を支えるアルゴリズムの一部となりました。
数週間後には、世界中の研究者がさまざまな言語や業界のユース ケースに BERT を適応させようとしていました。その理由について、機械学習研究歴 20 年のアンデシュ アルプテグ (Anders Arpteg) 氏は、「テキストは、企業が持つ最も一般的なデータ タイプの 1 つであるため」と指摘します。
Transformer の実戦投入
Transformer モデルは、すぐに科学とヘルスケアへの応用されるようになりました。
最近のネイチャー誌の記事によると、英国ロンドンを拠点とする DeepMind は、AlphaFold2 と呼ばれる Transformer を使用して、生物の構成単位であるタンパク質に対する理解を前進させました。同社は、アミノ酸鎖をテキスト文字列のように処理することで、タンパク質の折り畳みの解明において新たな記録を打ち立てました。この研究は、創薬の迅速化につながることが期待されています。
AstraZeneca と NVIDIA は、創薬向け Transformer として MegaMolBART を開発しました。これは、大規模 Transformer モデルを構築するための NVIDIA Megatron フレームワークを使用して、大規模なラベルなし化合物データベースで同社の MolBART Transformer をトレーニングしたものです。
分子、カルテの読み取り
AstraZeneca の分子 AI、ディスカバリー サイエンス、および研究開発の責任者であるオラ エンキビスト (Ola Engkvist) 氏 は、昨年の研究発表の際、次のように述べています。「AI 言語モデルが文中の単語間の関係を学習できるのと同様に、分子構造データでトレーニングされたニューラルネットワークが、実在の分子内の原子間の関係を学習できるようにすることが我々の狙いです」
これとは別に、フロリダ大学の学術医療センターは NVIDIA の研究者と GatorTron を共同開発しました。この Transformer モデルは、膨大な量の臨床データから知見を引き出して医学研究を加速させることを目的としています。
成長する Transformer
Transformer は、規模が大きいほど高性能であることがこれまでにわかっています。
例えば、AI と生物学が交差する領域における先駆的な研究を進めてきたミュンヘン工科大学の Rostlab の研究者は、タンパク質を理解するために自然言語処理を利用し、18 カ月をかけて 9,000 万パラメーターの RNN から、5 億 6,700 万パラメーターの Transformer モデルに移行しました。
OpenAI は、その Generative Pretrained Transformer (GPT) により、規模が大きいほど高性能であることを証明しました。最新バージョンである GPT-3 は、GPT-2 の 15 億パラメーターを上回る 1,750 億パラメーターを誇ります。
さらに重要なこととして、GPT-3 は特にトレーニングされていないタスクについてもユーザーのクエリに応答することができ、すでに Cisco、IBM、Salesforce をはじめとする企業に利用されています。
Mega Transformer の話
NVIDIA と Microsoft は、昨年 11 月に 5,300 億パラメーターを持つ Megatron-Turing Natural Language Generation (MT-NLG) モデルを発表し、記録を更新しました。これは、あらゆる企業がカスタム チャットボットやパーソナル アシスタントなど、言語を理解する AI アプリケーションの原動力として、10 億あるいは 1 兆パラメーターの Transformer を独自開発できるようにすることを目的とする新たなフレームワーク「NVIDIA NeMo Megatron」と同時に発表されました。
MT-NLG は、2021 年 11 月の GTC の基調講演の中で紹介された Toy Jensen (TJ) アバターの頭脳として初公開されました。
このモデルをトレーニングした NVIDIA チームを指揮したモストファ パットワリー (Mostofa Patwary) は、「TJ が質問に答えるのを目にしたとき、私たちの研究の威力が CEO によって証明され、胸が躍りました」と述べています。
こうしたモデルの開発は、気弱な人にはできません。MT-NLG は、数千億のデータ要素を使用してトレーニングされ、その間、数千の GPU を数週間にわたって稼働する必要がありました。
「大規模 Transformer モデルのトレーニングにはコストも時間もかかるため、一度あるいは二度うまくいかないと、プロジェクトが中止になるかもしれません」とパットワリーは述べています。
兆パラメーターの Transformer
現在、多くの AI エンジニアが兆パラメーターの Transformer とその応用に取り組んでいます。
「こうした大規模モデルをより良いアプリケーションの実現にどうつなげることができるのかを常に探っています。また、どんな側面が失敗するのかについても調査し、さらに大規模で優れたモデルを構築できるようにしています」とパットワリーは述べています。
そうしたモデルが必要とするコンピューティング パワーを提供するために、最新アクセラレーターである NVIDIA H100 Tensor コア GPU は Transformer Engine を搭載し、新しい FP8 精度をサポートしています。これにより、精度を維持したままトレーニングの高速化を実現します。
こうした進歩により、「Transformer モデルのトレーニングは、数週間単位から数日単位まで短縮できます」と、フアンは GTC で述べています。
MoE が意味するTransformer の可能性
昨年、Google の研究者は、世界初の1兆パラメーター モデルの 1 つである Switch Transformer に関する論文を発表しました。この Transformer は、AI のスパース性、複雑なMoE (Mixture-of-Expert) アーキテクチャ、その他の進歩を生かして、言語処理性能の向上と事前トレーニングの 7 倍の高速化を実現しています。
一方、Microsoft Azure は NVIDIA と協力して、Translator サービス用の MoE Transformer を実装しました。
Transformer の課題への取り組み
現在、より少ないパラメーターで最大規模のモデルと同等の性能を実現する、よりシンプルな Transformer の開発を目指している研究者もいます。
ゴメス氏は、DeepMind の Retro モデルを例に挙げ、「私は検索ベースのモデルが有望だと見ています。劇的な性能向上につながる可能性があるため、かなり期待を寄せています」と述べています。
検索ベースのモデルは、データベースにクエリを発行することで学習します。「使用するナレッジ ベースの内容を選べるという点が素晴らしい」とゴメス氏は言います。
最終的な目標は「これらのモデルが人間のように、データがほとんどなくても現実世界の文脈から学習できるようにする」ことであると、現在はステルス AI スタートアップ企業の共同創業者であるヴァスワニ氏は語っています。
その上で、将来のモデルは事前に行う計算が増え、その結果、必要なデータが少なくなるほか、ユーザーがフィードバックを与える方法の改善にもつながると予想しています。
また、自身の新しいベンチャーについて、「目標は人々の日常生活に役立つモデルを開発すること」だとしています。
安全で責任あるモデル
その一方で、モデルによって誤った言葉や有害な言葉が増幅された場合の偏見や有害性を排除する方法を研究する研究者もいます。例えば、スタンフォード大学は、この問題を研究するために Center for Research on Foundation Models (CRFM) を設立しました。
「これは、安全なモデルの開発のために解決する必要がある重要な問題です」と指摘するのは、NVIDIA で業界を超えてこの領域に取り組んでいるリサーチ サイエンティストであるシュリマイ プラブモエ (Shrimai Prabhumoye) です。
「現在、ほとんどのモデルは特定の単語やフレーズを探索しますが、現実世界では微妙な問題となる可能性があるため、文脈全体を考慮する必要があります」と、プラブモエは付け加えました。
「それは Cohere にとっても最大の関心事です。人を傷つけるようなモデルを使用する人はいないでしょう。したがって、最も安全で責任あるモデルを開発することは最低限の条件です」とゴメス氏も応じています。
その先を見据えて
ヴァスワニ氏は、自己学習するアテンション型のTransformer が AI の究極の目標に近づく未来を思い描いています。
「「汎用人工知能」という言葉が生まれたときに話題になった目標のいくつかが実現する可能性が見えています。その道しるべは、とても想像をかき立ててくれます」と、ヴァスワニ氏は言います。
「今や、ニューラルネットワークのようなシンプルな方法によって、新たな可能性が爆発的に広がる時代だということです」