画像生成 AI が研究段階からエンタープライズ領域まで成熟する中、企業はそのテクノロジを自社の製品に統合するための責任ある方法を模索しています。
Tel Aviv に本拠を置くスタートアップ企業 Bria はそうした流れに、モデルの透明性だけでなく、著作物の帰属と著作権に対する公平な保護を重視した画像生成 AI のオープン プラットフォームで対応しています。同社は現在、テキスト プロンプトを画像に変換したり既存の画像を変換させたりするモデルを提供していますが、今年、テキストからビデオおよび画像からビデオへ変換可能な AI を新たに提供する予定です。
Bria の共同創業者兼 CEO である Yair Adato 氏は次のように述べています。「生成 AI モデルの作成には時間と専門知識が必要です。製品チームが当社のモデルを採用して、多くのリソースを投入することなく、技術的な優位性を持って迅速に市場投入できるように、当社は鋭意尽力しています」
広告代理店や小売業者は、Bria のツールを使用することで、マーケティング キャンペーン用のビジュアルを迅速に生成できます。また、クリエイティブ スタジオは同社のモデルを採用することで、ストック画像の開発やビジュアルの編集が可能です。数十社の大手クライアントが、このスタートアップ企業の事前学習済みモデルを統合したり、アプリケーション プログラミング インターフェイスを使用したりしています。
Bria はこうしたモデルを、NVIDIA NeMo フレームワークを使用して開発しています。このフレームワークは、NVIDIA のアクセラレーテッド ソフトウェアのハブである NGC から入手できます。同社は、NVIDIA Tensor コア GPU でトレーニングした NeMo Multimodal コレクションのリファレンス実装を使用することで、高スループット、低遅延の画像生成を実現しています。また、推論の実行に、ビジュアル生成 AI モデルのファウンドリである NVIDIA Picasso も導入しています。
Bria の研究開発担当バイス プレジデントの Misha Feinstein 氏は次のように述べています。「当社はモデルを効率的にトレーニングするためのフレームワークを探していました。しかも、コンピューティング コストを最小限に抑えつつ、AI トレーニングをスケーリングしてより迅速にモデルのコンバージェンスを実現できるフレームワークです。NeMo には、トレーニングと推論の両方で GPU のパフォーマンスを最大化できる最適化技術が備わっています」
クリエイティブな課題にはクリエイティブな解決策を
2020 年に創業された Bria は、画像生成 AI を導入する企業にフレキシブルなオプションを提供しています。Bria のプラットフォームを採用することで、顧客はデータとテクノロジの制御を維持しながら、大規模なビジュアル コンテンツを作成することで競争力を高めることができます。開発者は、API を介して、またはさらにファインチューニングするためのソース コードとモデルの重みに関するライセンスを直接受けることによって、事前トレーニング済みのモデルにアクセスできます。
「私たちはプライバシー、コンテンツの所有権、データの所有権、著作権を尊重する会社を築きたいと考えています。健全で持続可能な産業を生み出すには、個人が創造と革新を続けられるような動機付けが重要です」と Adato 氏は言います。
Adato 氏は、Bria のアトリビューション プログラムを、1 曲再生されるたびにアーティストに料金が支払われる音楽ストリーミング サービスに例えています。このようなサービスが、Bria のモデルを使用するすべての顧客に求められています。たとえ、モデルを自分でさらにトレーニングさせてファインチューニングする場合でも、それは変わりません。
ライセンス付きのデータセットを使用すると、さらにメリットが得られます。Bria のチームは、データのクリーニングや、不適切なコンテンツおよび誤情報の選別に時間を費やす必要がないのです。
NVIDIA アクセラレーテッド モデルのスイートが拡大中
Bria は、テキストから画像への変換モデル の2 つのバージョンを提供しています。1 つは遅延に最適化されたモデルで、画像の背景生成などのタスクを迅速に実行します。もう 1 つのモデルでは、提供する画像の解像度がさらに高くなっています。追加される基盤モデルは、超解像度、オブジェクトの削除、オブジェクトの生成、インペインティング、アウトペインティングを可能にします。
同社は、生成される画像の解像度の継続的な向上、遅延のさらなる削減、e コマースやストック画像といった各種業界向けの専門分野向けモデル開発などに取り組んでいます。推論は、NVIDIA Triton Inference Server ソフトウェアと NVIDIA TensorRT ソフトウェア開発キットによって高速化されます。
Feinstein 氏はこう言います。「当社は NVIDIAの フレームワーク、ハードウェア、ソフトウェア上で実行しています。NVIDIA のエキスパートたちは、当社のツールを当社のニーズに合わせて最適化するのに協力してくれました。彼らの助けがなければ、もっと動作の遅いツールになっていたでしょう」
Bria ではクラウド コンピューティング リソースを使用して、最新のハードウェアとネットワーク インフラストラクチャに対応しています。AI トレーニングには NVIDIA H100 Tensor コア GPU、推論には各種の NVIDIA Tensor コア GPU を使用しています。
Bria は、スタートアップ企業に技術サポートと AI プラットフォームのガイダンスを提供するプログラムである NVIDIA Inception に参加しています。3 月 18 日から 21 日までサンノゼとオンラインで開催する NVIDIA GTC のInception Pavilionで Bria のテクノロジを体感してください。
最適化されたテキストから画像への変換モデルをトレーニングするには、NeMo Multimodal のユーザー ガイドと GitHub リポジトリをご一読ください。NeMo Multimodal は、NGC 上の NeMo コンテナの 1 つとしても利用可能です。