AI モデルが進化し、その導入が拡大する中、企業は最大限の価値を実現するために、繊細なバランス取りを迫られつつあります。
なぜなら、AI の推論 (モデルにデータを渡してアウトプットを得るプロセス) は、計算処理に関して、モデルのトレーニングとは異なる課題をもたらすからです。
モデルのプリトレーニング (データを取り込み、トークンに分解し、パターンを見つけるプロセス) には、基本的に一度限りのコストしかかかりません。しかし推論においては、モデルにプロンプトを 1 つ渡すごとにトークンが生成され、そのたびにコストが発生します。
つまり、AI モデルのパフォーマンスが向上して利用が増えるにつれ、生成されるトークンの量が増加し、それに伴う計算コストも増大するということです。企業が AI 能力の構築を考えるにあたっては、最大限の速度、精度、そしてサービス品質で、可能な限り多くのトークンを生成しながら、なおかつ計算コストの急増を回避することが鍵となります。
このような背景から、AI エコシステムは推論のコスト削減と効率化に取り組んできました。モデルの最適化が飛躍的に進歩したおかげで、推論のコストはこの 1 年で低下傾向にあり、ますます高度でエネルギー効率の高いアクセラレーテッド コンピューティング インフラとフルスタック ソリューションが生まれています。
スタンフォード大学の Institute for Human-Centered AI (HAI) が発表している「2025 AI Index Report」によると、「GPT-3.5 レベルで動作するシステムの推論コストは、2022 年 11 月から 2024 年 10 月の間に 280 分の 1 以下に低下しています。ハードウェア レベルでは、コストは年間 30% 低下し、エネルギー効率は 1 年に 40% 向上しています。また、オープンウェイト モデルはクローズド モデルとの差が縮まっており、ベンチマークによっては、1 年間でパフォーマンスの差が 8% からわずか 1.7% に縮小したものもあります。こうした傾向が相まって、高度な AI への障壁は急速に低下しつつあります」
モデルの進化がより多くの需要を生み出し、生成されるトークンが増えていく中、企業は自社のアクセラレーテッド コンピューティング リソースを拡張し、次世代の AI リーズニング ツールを実現する必要に迫られています。それを怠れば、コストとエネルギー消費の高まりというリスクにさらされてしまいます。
以下の解説は、推論の経済学にまつわるさまざまな概念を理解するための基本です。これについて知ることで、企業は効率的でコスト パフォーマンスと収益性の高い AI ソリューションを大規模に実現する態勢を整えることができるでしょう。
AI 推論の経済学に関わるキーワード
キーワードを知ることは、推論の経済学の重要性を理解するための土台作りになります。
トークンは、AI モデルにおけるデータの基本単位です。テキスト、画像、音声クリップ、ビデオといった形で、トレーニング中にデータから生成されます。トークン化というプロセスを通じて、各データはさらに小さな構成単位に分割されます。トレーニング中、モデルはトークン間の関係性を学習することにより、推論を実行して正確かつ的確な出力を生成できるようになります。
スループットとは、モデルが一定の時間内に出力できるデータ量 (多くの場合はトークン数で測定) のことで、この値はモデルを実行するインフラの性能に左右されます。スループットは 1 秒あたりのトークン数で測ることが多く、スループットが高いということは、インフラがもたらすリターンが大きいことを意味します。
レイテンシ (遅延) とは、モデルがプロンプトを渡されてから応答を開始するまでにかかる時間のことです。レイテンシが低いほど、応答が速いということになります。レイテンシの測定方法は主に以下の 2 つです。
- 最初のトークンまでの時間 (TTFT: Time to First Token): モデルがユーザーのプロンプトを渡されてから最初の出力トークンを生成するまでにかかる、最初の処理時間。
- 出力トークンあたりの時間 (TPOT: Time per Output Token): 連続するトークン 2 つの間の平均時間。すなわち、モデルに向けて同時にクエリを発行している各ユーザーに対して、モデルが完了トークンを 1 つ生成するのにかかる時間。「Inter-Token Latency」(トークン間レイテンシ) または「Token-to-Token Latency」(トークンツートークン レイテンシ) とも呼ばれます。
最初のトークンまでの時間 (TTFT) と出力トークンあたりの時間 (TPOT) は有用なベンチマークですが、これらは考慮すべき要素がもっと多くあるうちの 2 つにすぎません。この 2 つだけに目を奪われると、パフォーマンスやコストの低下につながる恐れがあります。
その他の相互依存関係も考慮に入れるべく、IT リーダーは「グッドプット」の測定に乗り出しています。グッドプットとは、システムが目標レベルの TTFT と TPOT を維持した上で達成できたスループットのことです。この指標により、組織はパフォーマンスをより包括的に評価して、スループット、レイテンシ、コストのバランスを取りながら、効率的な運用と優れたユーザー エクスペリエンスの両立を図れるようになります。
エネルギー効率は、AI システムが電力をどのくらい効果的に計算出力に変換できるかという指標であり、1 ワットあたりのパフォーマンスで表されます。アクセラレーテッド コンピューティング プラットフォームを活用することで、組織はエネルギー消費を最小限に抑えながら、1 ワットあたりのトークン数を最大化することができます。
スケーリング則が推論コストに適用される仕組み
推論の経済学について理解する上では、次の 3 つの AI スケーリング則も重要です。
- プリトレーニング スケーリング: これは、スケーリング則の元祖にあたります。トレーニング データセットのサイズ、モデルのパラメーター数、および計算資源を増やすことで、モデルのインテリジェンスや精度を予測可能な形で向上させられるという法則です。
- ポストトレーニング: モデルの精度と特異度をファインチューニングし、アプリケーション開発に適用できるようにするプロセスです。検索拡張生成などの手法を用いることで、企業のデータベースからより的確な回答を得ることができます。
- テストタイム スケーリング (「長時間思考」または「リーズニング」とも): 推論中にモデルが追加の計算資源を割り当て、複数の可能性を評価した上で最適な回答に到達する手法です。
AI は進化を続けており、ポストトレーニング スケーリングとテストタイム スケーリングの手法はさらに洗練されつつありますが、だからと言ってプリトレーニング スケーリングは淘汰されるわけではなく、モデルをスケーリングするための有用な手法として残っています。ポストトレーニング スケーリングとテストタイム スケーリングをサポートするために、プリトレーニング スケーリングはこの先も必要とされていくでしょう。
収益性の高い AI はフルスタックのアプローチを採用
プリトレーニングとポストトレーニングのみを実施したモデルによる推論とは違い、テストタイム スケーリングを活用したモデルは、複数のトークンを生成して複雑な問題を解決できます。そのため、より正確で的確なモデル出力が得られますが、計算コストは大幅に増加します。
よりスマートな AI とは、問題解決のためにより多くのトークンを生成することを意味します。そして、質の高いユーザー体験とは、すなわちトークンを可能な限り高速に生成することです。AI モデルがスマートかつ高速であればあるほど、企業や顧客にとっての有用性は高まります。
企業は、アクセラレーテッド コンピューティング リソースを拡張して次世代の AI リーズニング ツールを実現し、そのツールによって複雑な問題解決、コーディング、マルチステップ プランニングをコストの急激な上昇なしにサポートする必要があります。
その実現のためには、高度なハードウェアと完全に最適化されたソフトウェア スタックの両方が必要です。NVIDIA の AI ファクトリー製品ロードマップは、計算需要に対応し、推論の複雑性に対処しながら、より高い効率性を実現できるように設計されています。
AI ファクトリーは、高性能 AI インフラ、高速ネットワーク、最適化されたソフトウェアを統合し、インテリジェンスを大規模に生み出します。AI ファクトリーのこれらのコンポーネントは柔軟性がありプログラミング可能な設計になっているため、企業は自社のモデルや推論のニーズにとって最も重要な領域に力を集中させることができます。
大規模な AI リーズニング モデルを展開する際のオペレーションをさらに効率化するため、AI ファクトリーは高性能かつ低レイテンシの推論管理システム上で動作します。これにより、AI リーズニングに必要な速度とスループットを可能な限り低いコストで実現し、収益につながるトークン生成を最大化することが可能となっています。
詳しくは、EBook「AI Inference: Balancing Cost, Latency and Performance」をご覧ください。