Google の Gemma を NVIDIA GPU 上の実行に向けに最適化

投稿者: Ankit Patel

Google の新しいオープン言語モデルは、ローカルの RTX AI PC を含む NVIDIA AI プラットフォーム全体で TensorRT-LLM により高速化されます

NVIDIA は本日、Google と協力し、すべての NVIDIA AI プラットフォームに向けて Gemma の最適化を公開しました。Gemma は Google の最先端のオープン言語モデルであり、軽量の 20 億パラメーターと 70 億パラメーターのモデルがあります。場所を問わず実行できるため、コストを削減し、専門分野固有のユースケースでの革新的な作業を高速化します。

両社のチームは緊密に連携して、Gemini モデルの作成に使用されたものと同じ研究とテクノロジから構築された Gemma のパフォーマンスを高速化しました。大規模言語モデルの推論を最適化するオープンソース ライブラリの NVIDIA TensorRT-LLM を使用し、データセンターやクラウド、NVIDIA RTX GPU を搭載したワークステーションや GeForce RTX GPU を搭載した PC 上で実行する際に高速化されます。

この高速化により、開発者は世界中のハイパフォーマンス AI PC で利用可能な1 億基以上の NVIDIA RTX GPU インストール ベースを対象とすることができます。

また開発者は、H100 Tensor コア GPU をベースとした Google Cloud の A3 インスタンスをはじめとする、クラウド内の NVIDIA GPU 上でも Gemma を実行できます。さらに、まもなく Google が今年導入予定である 毎秒 4.8 テラバイトの 141 GB の HBM3e メモリを搭載する NVIDIA の H200 Tensor コア GPU 上でも実行できるようになります。

エンタープライズの開発者は、NeMo フレームワークTensorRT-LLM を利用できる NVIDIA AI Enterprise など、NVIDIA の豊富なツールのエコシステムを活用して、Gemma のファインチューニングや最適化されたモデルの運用アプリケーションへの展開が可能です。

TensorRT-LLM が Gemma の推論を向上させているかについてご覧ください。開発者に役立つ情報も記載されているほか、Gemma の複数のモデルのチェックポイントや、モデルの FP8 量子化バージョン (すべて TensorRT-LLM で最適化済み) がまとめられています。

ブラウザから直接アクセスできる NVIDIA AI Playground で Gemma 2BGemma 7B を体験することができます。

Gemma が Chat With RTX で利用可能に

Chat with RTX でもまもなく Gemma のサポートが追加されます。NVIDIA の技術デモである Chat with RTX は、Retrieval-Augmented Generation (RAG) と TensorRT-LLM ソフトウェアを使用してローカルの RTX 搭載 Windows PC 上での生成 AI 機能をユーザーに提供します。

Chat with RTX を使用すると、ユーザーは RTX PC 上のローカル ファイルを大規模言語モデルに簡単に接続して、独自のデータでチャットボットをカスタマイズできます。

このモデルはローカルで実行されるため、結果が素早く提供され、ユーザー データはデバイス上に残ります。クラウドベースの LLM サービスを使う代わりに Chat with RTX を使用すると、第三者への共有やインターネット接続の必要なく、ローカル PC 上で機密データを処理できます。

カリフォルニア州サンノゼおよびオンラインで 3 月 18 日から 21 日まで開催される、AI とアクセラレーテッド コンピューティングに関する世界的なカンファレンスの NVIDIA GTC で、生成 AI のセッションやエクスペリエンスをご覧ください。