NVIDIA、ローカル AI の実現に向けて Google DeepMind の DiffusionGemma を高速化

Google DeepMind は、極めて高速なテキスト生成を目的に構築された実験的なオープンモデル「DiffusionGemma」を公開しました。NVIDIA は DiffusionGemma を最適化して、ローカル PC からクラウドまで、NVIDIA GeForce RTX GPU、NVIDIA RTX PRO プラットフォーム、NVIDIA DGX Spark システムで、さらに高速に動作するようにしました。

DiffusionGemma は、単語を 1 つずつ生成するのではなく、複数の単語を並列に生成しながらテキストのブロック全体を出力し、開発者、研究者、AI 愛好家が日々実行するようなシングルユーザーワークロードにおける低遅延の新たな領域を切り開きます。

新しいモデルの主な特徴は以下のとおりです。

並列生成: DiffusionGemma は、トークンを一度に 1 つずつ予測するのではなく、1 ステップあたり最大 256 トークンのノイズを除去します。
Gemma 4 をベースに構築: DiffusionGemma は、1 ステップあたり 38 億パラメータのみをアクティブ化する、260 億パラメータのエキスパート混合モデルである Gemma 4 をベースに、Google の Gemma 4 アーキテクチャに拡散ヘッドを組み合わせて構築されています。
最大 4 倍のパフォーマンス向上: このパフォーマンス向上により、シングルユーザーによる生成が通常失速してしまうような場合でも、ローカルハードウェア上での高速なテキスト生成を実現します。
オープンかつローカル: DiffusionGemma は、寛容な Apache 2.0 ライセンスに基づくオープンウェイトであり、RTX と DGX Spark 上で完全に動作します。クラウドは不要で、トークンごとのコストもかからず、Hugging Face Transformers、vLLM、Unsloth でリリース初日からサポートされます。

従来とは異なるテキスト生成方法

現在広く使われている大規模言語モデル (LLM) は、ほぼ例外なく自己回帰型です。つまり、テキストを一度に 1 トークンずつ生成し、新しい単語はそれぞれ前の単語に依存します。この逐次プロセスこそが、対話型 AI がまるでタイピングしているかのように感じられる理由です。

DiffusionGemma は、従来とは異なる方針を採用しています。Gemma 4 26B のエキスパート混合アーキテクチャをベースに構築されており、ノイズから出発してテキストブロック全体を一度に精緻化することで、拡散モデルが画像を生成するのと同様の方法でテキストを生成します。ステップごとに 1 トークンを出力し、次のトークンの計算を待つのではなく、最大 256 トークンを並列にノイズ除去します。

その結果、逐次的ではなくブロック単位で思考するモデルが実現しました。この並列処理は、インタラクティブチャット、エージェント型ループ、計画と実行を支援するオンデバイスアシスタントなど、遅延に敏感なシングルユーザー処理において、開発者の思考反復に十分対応できる高速応答につながります。

DiffusionGemma は NVIDIA GPU で真価を発揮

トークンを一度に 1 つずつ生成することは、基本的にメモリ律速の問題です。つまり、バッチサイズが 1 の場合、従来の LLM は計算の実行ではなくメモリ帯域幅の待機にほとんどの時間を費やすため、多くの計算能力が無駄になってしまいます。

拡散はその方程式を覆します。256 トークンブロック全体を Transformer で並列処理することは、演算律速のワークロードであり、NVIDIA GPU の設計目的に完全に合致しています。NVIDIA Tensor コアは高密度な並列演算を高速化し、CUDA ソフトウェアスタックは特別な調整なしで初日からモデルの効率的な実行を可能にします。つまり、DiffusionGemma の設計は GPU のメリットをそのまま生かしているということです。

それは数値にも表れています。DiffusionGemma は、1 基の NVIDIA H100 Tensor コア GPU で毎秒 1,000 トークン、NVIDIA DGX Spark で毎秒 150 トークン、NVIDIA DGX Stationで最速のローカル推論を実現し、同じシングルユーザー環境で動作する同等の自己回帰モデルと比べて 4 倍近く高速です。

そのメリットは、以下に示すように NVIDIA の全ラインナップに共通しています。

NVIDIA DGX Spark デスクサイド パーソナル AI スーパーコンピューターでのローカル処理: NVIDIA GB10 Grace Blackwell Superchip と 128GB の統合メモリを搭載するほか、NVIDIA AI ソフトウェアスタックがプリインストールされており、プロトタイピング、ファインチューニング、完全ローカルのエージェントワークフローに対応できます。
NVIDIA RTX PRO 6000 ワークステーション: 開発者、研究者、AI 専門家が、プロフェッショナルなワークフローの一環として、低遅延生成やエージェント型ループをローカル実行できる余裕を備えています。
DGX Station: 最大 800 トークン/秒というクラス最高レベルの高速推論による低遅延テキスト生成と、748GB のコヒーレントメモリによるエージェント型ループを提供します。
GeForce RTX GPU: llama.cpp を近日サポート予定です。

ローカル AI を始めよう

モデルのテストとプロトタイピングを最も素早く始める方法は、Hugging Face Transformers を使用することです。Hugging Face Transformers は、GeForce RTX 5090 または DGX Spark 上で DiffusionGemma をすぐに実行できます。より高スループットの推論向けには、vLLM がリリース初日からサポートを提供しています。

モデルを特定のタスクやドメインに適応させるには、Unsloth や NVIDIA NeMo フレームワークによるファインチューニングが可能で、ローカル環境を素早く構築できる DGX Spark プレイブックが用意されています。DGX Spark、RTX PRO、DGX Station 向けの vLLM プレイブックをご覧ください。

Hugging Face で Diffusion Gemma を試すか、build.nvidia.com で NVIDIA がホストするアプリケーションプログラミングインターフェイスを使用して無料でテストしてください。

アーキテクチャとローカル展開の詳細については、NVIDIA 技術ブログと Google DeepMind の発表をご覧ください。

#ICYMI: RTX AI Garage の最新情報

🎬 NVIDIA の研究者は、単一の画像とカメラパスから、正確な 6 自由度制御が可能な 1 分間の 720p ビデオを生成するオープンソースの世界モデル「SANA-WM」を公開しました。わずか 26 億パラメータの蒸留モデルは、NVIDIA GeForce RTX 5090 GPU 1 基で NVFP4 フォーマットを使用して、60 秒の動画を 34 秒で生成し、1 基の GPU で動作する同等のオープンモデルと比較して、最大 36 倍のスループットを実現します。論文をご覧ください。

🛠️ Windows エージェント構築用に新たなツールセットが加わりました。NVIDIA と Microsoft は、ネイティブな Windows 上で動作するターンキーエージェントサンドボックス (Microsoft eXecution Containers と NVIDIA OpenShell ランタイム) をリリースしました。さらに、エージェント型推論を最大 2 倍高速化し、Hermes Agent のネイティブ Windows サポートも開始されました。

🤖DGX Spark は開封からわずか数分でエージェントを実行できます。NVIDIA NemoClaw を効率的にインストールすることで、ローカルエージェントを直ちに動作させ、Qwen3.6-35B を vLLM 上で最大 2.6 倍高速に動作させることができます。また、NVIDIA Sync の新しいクラスターアシスタントは、最大 4 基の DGX Spark ユニットを 1 つの 512GB プールにリンクします。これは、約 4,000 億パラメータモデルの処理に十分な容量です。

Facebook、Instagram、TikTok、X で RTX Spark をフォローしましょう。また、RTX Spark ニュースレターにご登録いただくと、最新情報を入手できます。

ソフトウェア製品情報については、お知らせをご覧ください。