大規模言語モデルにより、テキストなどのコンテンツを認識、要約、翻訳、予測、生成
AI アプリケーションは、記事を要約したり、ストーリーを作成したり、また、長めの対話にも対応するようになっています。そして、そこでは大規模言語モデルが重要な役割を担っています。
大規模言語モデル (LLM) は、膨大なデータセットから得た知識に基づいて、テキストやその他のコンテンツを認識、要約、翻訳、予測、生成できるディープラーニング アルゴリズムです。
大規模言語モデルは、Transformer モデルの最も成功した応用例の 1 つです。それは AI に人間の言語を教えるためだけでなく、タンパク質の研究やソフトウェア コードの生成など、さまざまな場面で活用されています。
翻訳、チャットボット、AI アシスタントといった自然言語処理アプリケーションの高速化に加え、大規模言語モデルは、ヘルスケア、ソフトウェア開発、またその他多くの分野で利用されています。
大規模言語モデルの用途
言語は、人間によるコミュニケーション以外にも使われています。
コードはコンピューターの言語であり、またタンパク質や分子の配列は生物学の言語です。大規模言語モデルは、このような意味での言語や、異なる種類のコミュニケーションが必要とされるシナリオにも応用できます。
これらのモデルは、産業や企業の枠を超えて AI の活用範囲を広げ、世界が抱える難題に対する複雑な解決策を導くのに貢献できるため、研究や創造性、生産性に新たな波をもたらすと期待されています。
例えば、大規模言語モデルを使用する AI システムは、分子やタンパク質の構造のデータベースから学習し、その知識を利用して、科学者が画期的なワクチンや治療法を開発するのに役立つ現実的な化学化合物を提示することができます。
大規模言語モデルは、新しい検索エンジン、個別指導用チャットボット、歌や詩、物語、マーケティング資料などの作成ツールなどにも役立っています。
大規模言語モデルの仕組み
大規模言語モデルは、膨大な量のデータから学習します。その名前が示すように、LLM に重要なのは、学習させるデータセットの大きさですが、「大規模」の定義は、AI とともに拡大しています。
現在では通常、大規模言語モデルは、長期間にわたってインターネット上に書き込まれたほぼすべてのものを含むほど大規模なデータセットを用いてトレーニングされます。
このような大量のテキストは、教師なし学習を使って AI アルゴリズムに送り込まれます。教師なし学習とは、モデルに対して何をすべきかという明確な指示がないままデータセットが与えられることです。この方法により、大規模言語モデルは、単語だけでなく、単語間の関係やその背後にある概念も学習します。例えば、「bark」という単語が持つ 2 種類の意味 (樹皮、もしくは犬等の吠え声) を文脈から区別できるようになります。
ある言語を習得した人が、文や段落の中で次に何が出てくるかを推測できるように、または自ら新しい単語や概念さえも生み出すように、大規模言語モデルはその知識を応用して、コンテンツを予測し、生成できるのです。
また、大規模言語モデルは、ファイン チューニングやプロンプト チューニングといった手法により、特定のユースケースに合わせてカスタマイズすることもできます。これは、モデルに小さなデータを与えて集中的に学習させ、特定の用途に対応させるというプロセスになります。
シーケンスを並列処理する際の計算効率の高さにより、Transformer モデル アーキテクチャは、最大規模かつ最も強力な LLM を支える基本的な要素になっています。
大規模言語モデルの主な用途
大規模言語モデルは、検索エンジン、自然言語処理、ヘルスケア、ロボティクス、コード生成などの分野で新たな可能性を切り開いています。
人気の AI チャットボット「ChatGPT」は、大規模言語モデルの 1 つの応用例で、無数の自然言語処理タスクに利用することができます。
LLM の用途はほぼ無限で、以下のような事例を含みます。
- 小売業者やその他のサービス プロバイダは、大規模言語モデルを利用することで、動的なチャットボットや AI アシスタントなどを通じて、より優れた顧客体験を提供できます。
- 検索エンジンは、大規模言語モデルを使用して、より直接的で人間に近いレスポンスを提供できます。
- ライフ サイエンス分野の研究者は、大規模言語モデルを学習させて、タンパク質、分子、DNA、RNA についての理解を深めることができます。
- 開発者は、大規模言語モデルを用いてソフトウェアを開発したり、ロボットに物理的なタスクを教えたりすることができます。
- マーケティング担当者は、大規模言語モデルを学習させて、顧客のフィードバックや要望をクラスタに整理したり、製品説明をもとに製品をカテゴリ別に分類したりできるようになります。
- ファイナンシャル アドバイザーは、大規模言語モデルを用いて、決算報告の要約や重要な会議の議事録を作成できます。また、クレジットカード会社は、消費者保護を目的とした異常検知や不正行為の分析に LLM を活用できます。
- 法務チームは、大規模言語モデルを使用して、用語の法的な言い換えや法律文書作成が可能になります。
これらの巨大なモデルを実際の運用環境で効率的に実行するには、リソースが多くかかり、また専門知識が求められるなどの課題があるため、多くの企業が NVIDIA Triton Inference Server を利用しています。NVIDIA Triton Inference Server は、モデルの展開を標準化し、高速で拡張性の高い AI を実運用環境で実現するソフトウェアです。
大規模言語モデルの入手先
2020 年 6 月、OpenAI は 1,750 億ものパラメータを用いたモデルを搭載し、短い文章の入力だけで、テキストやコードを生成できる GPT-3 を、サービスとしてリリースしました。
2021 年、NVIDIA とマイクロソフトは、読解と自然言語推論のための世界最大級のモデル「Megatron-Turing NLG 530B」を開発し、要約やコンテンツ生成などの作業を容易にしました。
HuggingFace は昨年、46 種類の自然言語と十数種類のプログラミング言語でテキストを生成できるオープンな大規模言語モデル、「BLOOM」を発表しています。
また、同じく LLM である Codex は、ソフトウェア エンジニアなどの開発者向けに、テキストをコードに変換するサービスを提供しています。
NVIDIA は、大規模言語モデルの構築と展開を容易にする以下のようなツールを提供しています。
- NVIDIA NeMo LLM サービスは、NVIDIA のマネージド クラウド API やプライベートおよびパブリック クラウドを利用して、大規模言語モデルをカスタマイズし、大規模に展開するための迅速な手段を提供します。
- NVIDIA AI プラットフォームの一部である NVIDIA NeMo Megatron は、大規模言語モデルの学習と展開を簡単かつ効率的、またコスト効率の良いものにするためのフレームワークです。エンタープライズ アプリケーションの開発用に設計された NeMo Megatron は、自動分散データ処理、GPT-3 や T5 を含む大規模でカスタマイズされたモデル タイプの学習、およびこれらのモデルの大規模な展開を可能にするエンドツーエンドのワークフローを提供します。
- NVIDIA BioNeMo は、低分子、DNA、RNA における大規模言語モデルのためのドメイン特化型マネージド サービスとフレームワークです。スーパーコンピューター規模で、大規模な生体分子 Transformer AI モデルを学習し、展開するために、NVIDIA NeMo Megatron 上に構築されています。
大規模言語モデルの課題
大規模言語モデルの拡張や保守には困難が伴い、またコストがかかります。
基礎となる大規模言語モデルの構築には、数か月に及ぶ学習期間と数百万ドルの費用が必要になることも少なくありません。
また、LLM は膨大な量の学習データを必要としますが、開発者や企業にとって、十分な量のデータセットを入手することは困難です。
大規模言語モデルは、その規模ゆえに、展開にはディープラーニング、Transformer モデル、分散ソフトウェアやハードウェアへの深い理解など、技術的な専門知識が必要です。
大規模言語モデルへのアクセスを広げ、消費者やあらゆる規模の企業がその恩恵を享受できるよう、技術分野の多くのリーダーが、開発の推進とリソースの構築に取り組んでいます。
大規模言語モデルについての詳細はこちらをご覧ください。