Mistral AI と NVIDIA が最先端のエンタープライズ AI モデル「Mistral NeMo 12B」を発表

Mistral NeMo の高精度コンテンツを生成し、処理する能力は企業に新たな機会をもたらす

Mistral AI と NVIDIA は本日、チャットボット、多言語タスク、コーディング、要約をサポートするエンタープライズアプリケーション向けに、開発者が簡単にカスタマイズして展開できる新しい最先端言語モデル「Mistral NeMo 12B」をリリースしました。

Mistral NeMo モデルは、Mistral AI のトレーニングデータに関する専門知識と、NVIDIA の最適化されたハードウェアおよびソフトウェアエコシステムを組み合わせることで、幅広いアプリケーションにおいて高いパフォーマンスを発揮します。

Mistral AI の共同創業者でチーフサイエンティストの Guillaume Lample 氏は次のように述べています。「NVIDIA チームと協力する機会に恵まれ、トップクラスのハードウェアとソフトウェアを利用できることは幸運です。NVIDIA AI Enterprise を導入したおかげで、これまでにない精度、柔軟性、高効率、エンタープライズグレードのサポートとセキュリティを備えたモデルを共同開発できました」

Mistral NeMo は、最新の NVIDIA アーキテクチャへのスケーラブルな専用アクセスを提供する NVIDIA DGX Cloud AI プラットフォーム上でトレーニングされました。

また、大規模言語モデル (LLM) での推論パフォーマンスを高速化する NVIDIA TensorRT-LLM と、カスタム生成 AI モデルを構築するための NVIDIA NeMo 開発プラットフォームを使用して、プロセスの高度化と最適化も図られています。

このコラボレーションは、モデルビルダーエコシステムをサポートする NVIDIA の取り組みを明確に示しています。

これまでにない精度、柔軟性、効率を実現

マルチターン会話、数学、常識推論、世界認識、コーディングに優れたこのエンタープライズグレードの AI モデルは、幅広いタスクにわたって正確で信頼性の高いパフォーマンスを発揮します。

128K のコンテキスト長に対応した Mistral NeMo は、広範で複雑な情報をより論理的かつ正確に処理し、コンテキストに関連した結果を確実に出力します。

Mistral NeMo は 120 億パラメータモデルで、イノベーションを促進し、広範な AI コミュニティをサポートする Apache 2.0 ライセンスの下でリリースされています。さらに、モデル推論には FP8 データフォーマットを使用しており、メモリサイズを削減すると同時に、精度を低下させることなく展開を高速化します。

つまり、このモデルはタスクをより的確に学習して多様なシナリオを効率よく処理するため、エンタープライズのユースケースに最適です。

Mistral NeMo は NVIDIA NIM 推論マイクロサービスとしてパッケージ化されており、NVIDIA TensorRT-LLM エンジンによってパフォーマンスに最適化された推論を提供します。

このコンテナ化されたフォーマットにより、どこにでも簡単に展開でき、さまざまなアプリケーションに高い柔軟性をもたらします。

そのため、どこでも数日どころか数分でモデルを展開可能です。

NIM は、専用の機能ブランチ、厳格な検証プロセス、エンタープライズグレードのセキュリティとサポートを特徴とする NVIDIA AI Enterprise の一部であるエンタープライズグレードのソフトウェアです。

包括的なサポート、NVIDIA AI エキスパートへの直接アクセス、所定のサービスレベルアグリーメント (SLA) が含まれており、信頼性が高く一貫したパフォーマンスを提供します。

また、オープンモデルライセンスの採用により、企業は Mistral NeMo を商用アプリケーションにシームレスに統合できます。

1 基の NVIDIA L40S、NVIDIA GeForce RTX 4090、または NVIDIA RTX 4500 GPU のメモリに収まるように設計された Mistral NeMo NIM は、高い効率と低いコンピューティングコストに加え、セキュリティとプライバシーの強化も実現します。

高度なモデルの開発とカスタマイズ

Mistral AI と NVIDIA のエンジニアは、お互いの専門知識を結集して Mistral NeMo のトレーニングと推論を最適化しました。

このモデルは、特に多言語、コード、マルチターンコンテンツに関する Mistral AI の専門知識を生かしてトレーニングされ、NVIDIA のフルスタックで上で高速化されたトレーニングの恩恵を受けています。

また、Megatron-LM の効率的なモデル並列処理技術、スケーラビリティ、および混合精度を生かして、最適なパフォーマンスを発揮するように設計されています。

このモデルは、NVIDIA NeMo の一部である Megatron-LM を使用してトレーニングされました。Megatron-LM は、DGX Cloud 上の H100 80GB Tensor コア GPU を 3,072 基使用しました。DGX Cloud は、トレーニング効率を向上させるアクセラレーテッドコンピューティング、ネットワークファブリック、ソフトウェアを含む NVIDIA AI アーキテクチャで構成されています。