創薬、STAT! NVIDIA と Recursion が AI スーパーコンピューターで製薬研究開発を加速

投稿者: Rory Kelleher

NVIDIA の AI を搭載し、医療分野の科学者の研究を加速するエンジン「BioHive」が、世界最速スーパーコンピューター TOP 500 リストで 100 位以上ランクを上げました。

Recursion のソルトレイクシティ本社にある、製薬業界最大のシステムと呼ばれる BioHive-2 は、最新の世界最速スーパーコンピューター TOP 500 リストにおいて、前身システムより 100 位以上順位を上げ、35 位にランクインしました。

この躍進は、NVIDIA のテクノロジを活用して創薬を加速させるという、最近の同社の取り組みを象徴するものです。

Recursion の最高技術責任者 Ben Mabey 氏は次のように述べています。「大規模言語モデルの場合とちょうど同じように、生物学領域の AI モデルも、より多くのデータとコンピューティングパワーを用いてトレーニングの規模を拡大することで、パフォーマンスが大幅に向上し、最終的には、患者の生活に大きな影響を与えることになります。」同氏は10 年以上にわたり、機械学習を医療に活用してきました。

BioHive-2 は、NVIDIA Quantum-2 InfiniBand ネットワークに接続された NVIDIA H100 Tensor コア GPU を504 基を搭載しており、2 エクサフロップス(exaFLOPS)の AI パフォーマンスを提供します。これにより生み出された NVIDIA DGX SuperPOD は、Recursion の第 1 世代システムである BioHive-1 より 5 倍近く高速です。

複雑さを乗り越えるパフォーマンス

Mabey 氏によると「生物学は狂気的に複雑」なので、パフォーマンスが急速な進歩の鍵となります。

新たな薬剤候補を発見するために、科学者らは何年もかけて数百万のウェットラボ実験をすることがあります。

この作業は重要です。Recursion の科学者たちは 1 週間に 2 百万以上のこのような実験を行います。しかし将来的には、 BioHive-2 で AI モデルを用い、プラットフォームを最も有望な生物学分野に導いて、実験を行うことになるでしょう。

同氏は次のように述べています。「AI が加わった今、40% のウェットラボ作業により 80% の価値を得られます。そして、この比率は今後さらに改善していくでしょう。」

生物学データが医療 AI を推進

Recursion は、Bayer AG、Roche、Genentech といったバイオ医薬品企業と協業しています。同社はまた、時間をかけて、50 ペタバイト以上の生物学、化学、患者データのデータベースを蓄積し、創薬を加速する強力な AI モデルの構築に役立てました。

Mabey 氏は次のようにも述べています。「地球上で最大級の生物学データセットのひとつだと考えています。AI トレーニングを念頭において構築されており、意図的に生物学と化学にまたがるものとなっています。」同氏は7 年以上前に同社に入りましたが、その理由の一つが、このようなデータセットの構築に同社が尽力していることでした。

AI 旋風を創出

BioHive-1 でこのデータを処理した Recursion は、Phenom という基盤モデルシリーズを開発しました。このシリーズが、一連の微細細胞画像を、根底にある生物学を理解するための有意義な表現に変えました。

シリーズの一つである Phenom-Beta は、現在クラウド API として、また、初のサードパーティ モデルとして、創薬のための生成 AI プラットフォームである NVIDIA BioNeMo で利用可能です。

数か月にわたる研究とイテレーションの中で、BioHive-1 は 35 億枚以上の細胞画像を用いて Phenom-1 をトレーニングしました。Recursion の拡張システムにより、より強力なモデルを、より大規模なデータセットで、より短時間のうちにトレーニングすることが可能となりました。

同社は、Oracle Cloud Infrastructure がホストする NVIDIA DGX Cloud も使用し、作業を促進するためのスーパーコンピューティング リソース を追加しました。

大規模言語モデルが文中の欠けた単語を生成するようトレーニングされるのとちょうど同じように、Phenom モデルは、細胞画像中の隠されたピクセルを生成するよう指示を受けてトレーニングされます。

Phenom-1 モデルは Recursion とそのパートナーに、さまざまな病気やがんの治療のための分子の発見および最適化を含む、いくつかの点で貢献しました。初期モデルは 10 分の 9 の確率で新型コロナウイルス感染症(COVID-19)用の薬剤候補を Recursion が予測するのに役立ちました。

同社は7月に NVIDIA との協業を発表しました。そしてそれから30 日と経たないうちに、BioHive-1 と DGX Cloud が連携して、巨大化学ライブラリーを選別、分析して、およそ 360 億の化合物の標的タンパク質を予測しました。

1 月に同社は、自社のツールを科学者にとってより利用しやすくする、自然言語インターフェースを備えたAI ワークフロー エンジン 「LOWE」 のデモンストレーションを行いました。そして 4 月に、医療に役立つ重要分子の性質を予測する新手法を提供するために構築した、10 億パラメータの AI モデルについて発表しました。

Recursion は NVIDIA のソフトウェアを使って、システムを最適化しています。

Mabey 氏は次のように述べています。「私たちは CUDA と NVIDIA AI Enterprise が非常に気に入っており、NVIDIA NIM が当社のモデルを社内向けにもパートナー向けにも、より容易に提供する助けとなるのではないかと考えています。」

医療についての共有ビジョン

この取り組みは、NVIDIA の創業者/CEO であるジェンスン フアン(Jensen Huang)が Recursion の会長との対談において、生物学のシミュレーションへと移行する中で説明した、広範なビジョンの一部です。

フアンは次のように述べています。「今では、構造を持つものならほぼ何についても、その言語を認識して学ぶことができ、構造を持つ何にでもそれを適用できます。これは生成 AI 革命です。」

Mabey 氏は「同感です。」と付け加えました。

また、同氏は次のように述べていました。「私たちは、コンピューターがチップの設計を加速するように、AI が薬の設計をスピードアップすることができるという、非常に興味深い時代の初期段階にいます。生物学ははるかに複雑なので、やり遂げるまでに数年を要するでしょうが、振り返れば、ここが医療における本当のターニング ポイントだったと人々が思うようになるでしょう。」

NVIDIA の医療およびライフ サイエンス用 AI プラットフォーム について知り、NVIDIA 医療ニュースレターの購読をお申し込みください。

トップの写真: BioHive-2 と Recursion チームのメンバー(左から)Paige Despain 氏、John Durkin 氏、Joshua Fryer 氏、Jesse Dean 氏、Ganesh Jagannathan 氏、Chris Gibson 氏、Lindsay Ellinger 氏、Michael Secora 氏、Alex Timofeyev 氏、Ben Mabey 氏。