NVIDIA と Evozyne がタンパク質を対象としたジェネレーティブ AI モデルを構築

投稿者: Rick Merritt

大規模言語モデル用の NVIDIA BioNeMo を使い、科学者が高品質なタンパク質を生成し、創薬のスピードアップとより持続可能な環境を実現

NVIDIA の事前トレーニング済み AI モデルを使い、スタートアップ企業の Evozyne が、ヘルスケアおよびクリーン エネルギーに大きな可能性をもたらす、2 種のタンパク質を作成しました。

本日公開された共同論文で、そのプロセスとともに、そこから生成される生物学的な構成要素について説明しています。タンパク質の 1 つは先天性疾患の治療を目的としており、もう 1 つは二酸化炭素を消費して地球温暖化を抑制するために作られました。

最初の成果として、創薬の加速などを実現するための新しい方法が明らかにされています。

Evozyne の共同創業者であり、論文の共同執筆者でもあるアンドリュー ファーガソン (Andrew Ferguson) 氏は、次のように話しています。「この初期段階においても、AI モデルが、自然発生したものと同じくらい良質な合成タンパク質を生み出したことを心強く思っています。AI モデルが自然の設計ルールを正しく学んでいることがわかるからです」

変革的な AI モデル

Evozyne は、NVIDIA が実装した ProtT5 を使用しました。ProtT5 は、ヘルスケア用の AI モデルを構築するためのソフトウェア フレームワークおよびサービスである NVIDIA BioNeMo に組み込まれている、Transformer モデルです。

「BioNeMo は、モデルのトレーニングに必要なものをすべて提供してくれ、その後そのモデルを使ったジョブをとても安価に実行することができ、私たちはわずか数秒で数百万のシーケンスを生成できました」とファーガソン氏は言います。ファーガソン氏は化学と機械学習が交差する分野に取り組んでいる分子エンジニアです。

このモデルは、ProT-VAE と呼ばれている、Evozyne のプロセスの中心となっています。このワークフローでは、BioNeMo とフィルターとして機能する変分オートエンコーダーを組み合わせています。

「大規模言語モデルと変分オート エンコーダーを組み合わせてタンパク質を設計する方法は、数年前には誰も思いもつかなかったでしょう」とファーガソン氏は言います。

モデルが自然に学習

本を読む学生のように、NVIDIA の Transformer モデルは、数百万のタンパク質のなかからアミノ酸のシーケンスを読み取ります。ニューラル ネットワークがテキストを理解するのと同じテクニックで、Transformer モデルは、自然が強靱な生物学的な構成要素を組み立てる方法を学びます。

その後、このモデルは、Evozyne が対処したいと思う機能にふさわしい、新しいタンパク質の組み立て方を予測します。

「このテクノロジによって、10 年前には夢物語であったことが可能になっているのです」とファーガソン氏は言います。

可能性の海

機械学習により、天文学的な数字のタンパク質のシーケンスの作成を導くことが可能になり、さらにそのなかから最も役に立つものを選べるようにもなっています。

指向性進化法と呼ばれるタンパク質設計の従来手法では、時間のかかる行き当たりばったりのアプローチが行われます。この手法では通常、一度にシーケンス内の数個のアミノ酸を変化させることしかできません。

EvozyneのProT-VAEプロセスは、NVIDIA BioNeMoの強力なTransformerモデルを使用して、創薬やエネルギー持続可能性に役立つタンパク質を生成しています。

対照的に、Evozyne のアプローチでは、タンパク質内のアミノ酸の半分以上を一度に変更することができます。これは、数百の変異を作るのと同じようなことです。

「私たちは、これまで見たことがなかった、新しい有用な機能を持つタンパク質を探索するという、大きな飛躍を遂げようとしています」とファーガソン氏は言います。

新しいプロセスを活用して、Evozyne では、疾病や気候変動と戦う、さまざまなタンパク質を作り出す計画を立てています。

トレーニング時間を短縮しながら、モデルを拡大

「NVIDIA は、この取り組みでの極めて強力なパートナーです」とファーガソン氏は言います。

また、Evozyne のデータ サイエンティストであるジョシュア モーラー (Joshua Moller) 氏は、次のように話しています。「NVIDIA はジョブを複数の GPU にスケールし、トレーニングをスピードアップしてくれました。私たちは、1 分ごとにデータセット全体を処理できるようになりました」

その結果、大規模な AI モデルをトレーニングする時間が数か月から 1 週間に短縮されました。「それによって、数十億のトレーニング対象パラメータを含んでいることもあるモデルのトレーニングも可能になりました。他の方法では、まったく不可能だったでしょう」とファーガソン氏は言っています。

明るい未来

AI アクセラレーテッドのタンパク質設計の未来は大きく開かれています。

「この分野は信じられないようなスピードで発展しており、次に何が登場するのか楽しみでなりません」と言うファーガソン氏は、最近の拡散モデルの発展にも注目しています。

「5 年後にどうなっているかは、誰にもわからないのです」

NVIDIA BioNeMo の早期アクセスに申し込み、アプリケーションをいかに加速できるかご体感ください。