NVIDIA が視覚、音声、言語を統合し、AI エージェントの効率を最大 9 倍向上させる Nemotron 3 Nano Omni モデルを発表

今日の AI エージェント型システムは、視覚、音声、言語それぞれに個別のモデルを使用しており、データをモデル間で受け渡す際に時間や文脈が失われています。

本日発表された NVIDIA Nemotron 3 Nano Omni は、これらの機能を 1 つのシステムに統合したオープンなマルチモーダルモデルです。これにより、エージェントはビデオ、オーディオ、画像、テキストといった様々な情報源に対して、より高速でスマートな応答と高度なリーズニングを提供できるようになります。このクラス最高レベルのモデルは、企業や開発者に対し、より効率的で高精度なマルチモーダル AI エージェントを、完全な導入の柔軟性と制御性を備えた形で実運用に導入するための道筋を提供します。

Nemotron 3 Nano Omni は、高度な精度と低コストを実現し、オープンなマルチモーダルモデルの効率性を新たな次元へと引き上げます。複雑な文書認識、ビデオおよび音声理解において、6 つのリーダーボードでトップの座を獲得しています。

一覧

概要
オープンなオムニモーダルリーズニングモデル ― 同種のオープンマルチモーダルモデルの中で最高効率と卓越した精度を実現

対応データ
テキスト、画像、音声、ビデオ、ドキュメント、グラフ、グラフィカルインターフェース (入力)、テキスト (出力)

対象ユーザー
マルチモーダル知覚サブエージェントを必要とする、高速かつ信頼性の高いエージェント型システムを構築する企業および開発者

動作原理
エージェント型システムの「目と耳」として機能し、Nemotron 3 Super や Ultra などのモデル、あるいは他の独自モデルと連携して動作

重要性
卓越したマルチモーダル精度と、同等のインタラクティビティを持つ他のオープンオムニモデルと比較して 9 倍高いスループットを実現。応答性を損なうことなく、コスト削減と拡張性の向上を実現。

アーキテクチャ
30B-A3B ハイブリッド MoE (Conv3D、EVS、256K コンテキスト搭載)

提供開始時期
2026 年 4 月 28 日、Hugging Face、OpenRouter、build.nvidia.com、および 25 以上のパートナープラットフォームを通じて提供開始

すでに Nemotron 3 Nano Omni を採用している AI およびソフトウェア企業には、Aible、Applied Scientific Intelligence (ASI)、Eka Care、Foxconn、H Company、Palantir、Pyler などがあり、Dell Technologies、DocuSign、Infosys、K-Dense、Lila、Oracle、Zefr もこのモデルを評価しています。

H Company の CEO、Gautier Cloix 氏は次のように話しています。「有用なエージェントを構築するには、モデルが画面を解釈するのに数秒も待つ余裕はありません。Nemotron 3 Nano Omni を基盤とすることで、当社のエージェントはフル HD の画面録画を瞬時に解釈できるようになりました。これは以前では、実用的ではありませんでした。これは単なる速度向上ではなく、エージェントがデジタル環境をリアルタイムで認識し、対話する仕組みそのものに根本的な変革をもたらすものです」

Nemotron 3 Nano Omni がより高速で効率的なマルチモーダルエージェントを実現

顧客サポート向けの AI エージェントが、画面録画を処理しながら、アップロードされた通話音声を分析し、データログを確認する場合や、財務部門のエージェントが PDF、スプレッドシート、グラフ、音声メモを解析する場合を考えてみましょう。現在、ほとんどのエージェント型システムは、これらのタスクを視覚、音声、言語それぞれに個別のモデルを使用して実行しています。

このアプローチでは、推論処理の繰り返しによってレイテンシが増加し、コンテキストがモダリティ間で断片化され、時間の経過とともにコストと精度が低下します。

Nemotron 3 Nano Omni は、30B-A3B のハイブリッド混合エキスパートアーキテクチャ内で視覚エンコーダと音声エンコーダを統合することで、個別の知覚モデルを不要にし、大規模な推論効率を向上させます。この効率性と高いマルチモーダル知覚精度を組み合わせることで、AI システムは、同等のインタラクティビティを持つ他のオープンオムニモデルと比較して、9 倍のスループットを実現できます。その結果、応答性や品質を損なうことなく、コスト削減と拡張性の向上が可能になります。

エージェント型システムにおいて、Nemotron 3 Nano Omni は、独自のクラウドモデルや、高頻度実行向けの Nemotron 3 Super、複雑なプランニング向けの Nemotron 3 Ultra といった NVIDIA Nemotron のオープンモデル、さらには他社の独自のモデルとも連携し、コンピュータ利用、ドキュメントインテリジェンス、音声/ビデオリーズニングといったエージェント型ワークフローのサブエージェントを駆動します。

コンピュータ利用エージェント — Nemotron 3 Nano Omni は、グラフィカルユーザーインターフェースをナビゲートし、画面上のコンテンツに基づいてリーズニングを行い、ユーザーインターフェースの状態を時系列で理解するエージェントの知覚ループを支えます。H Company の最新のコンピュータ利用エージェントは、Nemotron 3 Nano Omni を搭載し、1920×1080 ピクセルのネイティブ入力解像度を使用して高精細な視覚リーズニングを実現しています。OSWorld ベンチマークを用いた予備評価では、この統合により複雑なグラフィカルインターフェースのナビゲート性能が大幅に向上し、Nemotron 3 Nano Omni の高解像度画像処理能力が活用されました。
ドキュメント インテリジェンス — ドキュメント、グラフ、表、スクリーンショット、および複数のメディアを組み合わせた入力を解釈し、エージェントが視覚構造とテキストコンテンツを整合的に理解できるようにします。企業分析およびコンプライアンスワークフローにとって不可欠です。
音声およびビデオの理解 — カスタマーサービス、調査、およびモニタリングワークフローにおいて、Nemotron 3 Nano Omni は音声とビデオのコンテキストを維持し、発言、表示、および文書化された内容を、断片的な要約ではなく、単一のリーズニングストリームに統合します。

オープンでカスタマイズ可能、あらゆる環境に展開可能

Nemotron 3 Nano Omni は、オープンウェイト、データセット、トレーニング手法とともにリリースされました。これにより、組織はモデルのカスタマイズと展開方法を完全に透明性をもって制御できます。

開発者は、NVIDIA NeMo などのツールを使用して、ドメイン固有のユースケースに合わせてカスタマイズ、評価、最適化を行うことができます。Nemotron ファミリーのモデルはオープンであるため、組織は規制、主権、データローカライゼーションの要件を満たす環境に展開できます。

Nano、Super、Ultra モデルを含む Nemotron 3 ファミリーは、過去 1 年間で 5,000 万回以上ダウンロードされています。Omni は、このファミリーの機能をマルチモーダルおよびエージェント領域に拡張します。

このモデルは、NVIDIA NIM マイクロサービスとして Hugging Face、OpenRouter、build.nvidia.com で利用できるほか、NVIDIA クラウドパートナー、推論プラットフォーム、クラウドサービスプロバイダーからなる幅広いエコシステムを通じて利用可能です。

オープンで軽量なアーキテクチャにより、NVIDIA Jetson ハードウェア、NVIDIA DGX Spark、DGX Station などのローカルシステムからデータセンターやクラウド環境まで、一貫した展開をサポートします。

Nemotron 3 Nano Omni のユースケースに関するチュートリアル、クックブック、デプロイメントガイドについては、NVIDIA 技術ブログをご覧ください。NVIDIA ニュースの購読、コミュニティへの参加、LinkedIn、Instagram、X、Facebook での NVIDIA AI のフォローを通じて、エージェント型AI、NVIDIA Nemotron などの最新情報を入手してください。

ご自身のペースで学習できるビデオチュートリアルやライブストリームもご覧ください。

一覧

Nemotron 3 Nano Omni がより高速で効率的なマルチモーダル エージェントを実現

オープンでカスタマイズ可能、あらゆる環境に展開可能

Nemotron 3 Nano Omni がより高速で効率的なマルチモーダルエージェントを実現