さらにオープンに: NVIDIA、Meta Llama 3 での推論を高速化

NVIDIA のテクノロジで構築された Meta の最新のオープンな大規模言語モデルは、NVIDIA GPU 上で動作するように最適化されており、クラウドやデータセンターからエッジや PC にも対応します。

NVIDIA は本日、最適化を通じ、すべてのプラットフォームで最新世代の大規模言語モデル (LLM) である Meta Llama 3 を高速化したことを発表しました。

このオープンモデルと NVIDIA のアクセラレーテッドコンピューティングを組み合わせることで、開発者、研究者、企業の皆様は、幅広いアプリケーションで信頼性の高いイノベーションを実現することが可能になります。

NVIDIA AI でトレーニング

Meta のエンジニアは、2 万 4,576 基の NVIDIA H100 Tensor コア GPU を搭載し、RoCE と NVIDIA Quantum-2 InfiniBand ネットワークでリンクされたコンピュータークラスタの上で Llama 3 のトレーニングを行いました。

生成 AI の最先端をさらに進化させるため、Meta は最近、そのインフラを 35 万基の H100 GPU にまで拡張する計画を発表しました。

Llama 3 の活用

NVIDIA GPU で高速化された Llama 3 の各バージョンは、クラウド、データセンター、エッジ、および PC で今すぐ利用可能です。

開発者はブラウザを使用し、ai.nvidia.com で Llama 3 を試すことができます。Llama 3 は標準的なアプリケーションプログラミングインターフェイスを備えた NVIDIA NIM マイクロサービスとしてパッケージ化されており、どこにでも展開することができます。

企業は NVIDIA NeMo を使って、自社のデータで Llama 3 をファインチューニングできます。NVIDIA NeMo は、LLM 用のオープンソースフレームワークで、サポート付きのセキュアな NVIDIA AI Enterprise プラットフォームの一部です。カスタムモデルは、NVIDIA TensorRT-LLM で推論用に最適化し、NVIDIA Triton Inference Server で展開することができます。

Llama 3 をデバイスや PC へ導入

Llama 3は、ロボティクスおよびエッジコンピューティングデバイス用の NVIDIA Jetson Orin 上でも動作し、Jetson AI Lab にあるようなインタラクティブなエージェントを作成できます。

さらに、ワークステーション用や PC 用の NVIDIA RTX および GeForce RTX GPU が、Llama 3 の推論を高速化します。これらのシステムにより、開発者は世界中で 1 億以上もの NVIDIA アクセラレーテッドシステムを対象にすることができます。

Llama 3 で最適なパフォーマンスを実現

チャットボット用に LLM を展開する際のベストプラクティスには、低遅延、優れた読み取り速度、コスト削減のための最適な GPU の使用のバランスが挙げられます。

このようなサービスでは、トークン (基本的に LLM でいう単語に相当) をユーザーの読み取り速度の約 2 倍 (約 10 トークン/秒) で提供する必要があります。

上記の指標を適用すると、700 億のパラメータを持つバージョンの Llama 3 を使用した初期テストでは、NVIDIA H200 Tensor コア GPU 1 基で、約 3,000 トークン/秒 (約 300 人のユーザーに同時にサービスを提供するのに十分な量) を生成できました。

つまり、8 基の H200 GPU を搭載した 1 台の NVIDIA HGX サーバーは、2 万 4,000 トークン/秒を提供できるため、同時に 2,400 人以上のユーザーをサポートし、コストをさらに最適化することができます。

エッジデバイスの場合は、80 億のパラメータを持つバージョンの Llama 3 を使用し、Jetson AGX Orin で最大 40 トークン/秒、Jetson Orin Nano で 15 トークン/秒を生成できました。

コミュニティモデルの推進

NVIDIA は、オープンソースに積極的に貢献している企業として、コミュニティソフトウェアの最適化を通じ、ユーザーが非常に困難な課題にも取り組めるよう支援しています。オープンソースモデルはまた、AI の透明性を高めることで、ユーザーが AI の安全性とレジリエンスに関する作業を広く共有できるようにします。

NIM、TensorRT-LLM、Triton といった NVIDIA の AI 推論プラットフォームが、低ランク適応などの最先端の技術をどのように活用し、最新の LLM を高速化しているかの詳細については、リンク先をお読みください。