NVIDIA Clara Discovery が、有望な新薬をいち早く発見するために必要なツールを研究者に提供
NVIDIA は、画期的な Transformer ニューラルネットワークを用いた新しい AI 研究プロジェクトにおいて、バイオ製薬会社の AstraZeneca およびフロリダ大学の学術医療センターである UF Health と協業しています。
ここ数年でようやく利用可能になった Transformer ベースのニューラルネットワークのアーキテクチャは、研究者が自己教師あり学習を用いて膨大なデータセットを利用することを可能にし、事前トレーニング時に手作業でラベル付けされたデータを必要としません。これらのモデルは、言語の文法の学習と同様に、化学構造を記述するための構文規則の学習にも適しており、研究分野やモダリティを超えて応用が進んでいます。
NVIDIA は、英国最大のスーパーコンピューターとしてまもなく運用が開始される Cambridge-1 で実行される最初のプロジェクトとして、創薬に使われる化学構造の Transformer ベースの生成 AI モデルについて、AstraZeneca と共同研究を行っています。このモデルはオープンソース化され、NVIDIA NGC ソフトウェア カタログで研究者や開発者に提供され、計算創薬のための NVIDIA Clara Discovery プラットフォームで展開可能になる予定です。
また、別のプロジェクトとして、UF Health は NVIDIA の最先端の Megatron フレームワークと、NGC 上で利用可能な BioMegatron 事前トレーニング済みモデルを利用して、過去最大の臨床言語モデルである Gatorton の開発を行っています。
新しい NGC のアプリケーションとしては、DNA のアクセス可能な領域を特定するディープラーニング モデルである AtacWorks や、疎なデータ、曖昧なデータ、またはノイズの多いデータから生体分子の構造を推論するツール、 MELD などがあります。
分子に対する洞察を提供する Megatron モデル
NVIDIA と AstraZeneca が開発を進めている MegaMolBART と呼ばれる創薬モデルは、反応予測、分子最適化、および de novo 分子生成に使用される予定です。MegaMolBART は、AstraZeneca の MolBART Transformer モデルをベースにしており、スーパーコンピューティング インフラストラクチャ上での大規模なトレーニングを可能にする NVIDIA の Megatron フレームワークを使用して、ZINC 化合物データベースでトレーニングされています。
大規模な ZINC データベースにより、研究者は化学構造を理解するモデルを事前トレーニングすることができ、手作業でのデータ ラベル付けの必要がなくなります。化学の統計的理解を備えたこのモデルは、化学物質が互いにどのように反応するか予測したり、新しい分子構造を生成したりするなどのさまざまなダウンストリームのタスクに特化される予定です。
AstraZeneca の分子 AI、ディスカバリー サイエンス、および研究開発の責任者であるオラ エンキビスト (Ola Engkvist) 氏 は、次のように述べています。「AI 言語モデルが文中の単語間の関係を学習できるのと同様に、分子構造データでトレーニングされたニューラルネットワークが、実在の分子内の原子間の関係を学習できるようにすることが我々の狙いです。この NLP モデルは、開発が完了した時点でオープンソース化される予定で、より迅速な創薬のための強力なツールを科学コミュニティにもたらします」
NVIDIA DGX SuperPOD でトレーニングされたモデルは、データベース内に存在しないが、有望な新薬候補になり得る分子のアイデアを研究者に提供します。インシリコ手法と呼ばれる計算方法により、薬剤開発者は広大な化学空間をさらに探索し、膨大な費用と時間を要する実験室試験に移行する前に薬理学的特性を最適化することができます。
今回の共同研究では、NVIDIA DGX A100 をベースとする Cambridge-1 および Selene スーパーコンピューターを使用して、大規模ワークロードを実行します。Cambridge-1 は英国最大のスーパーコンピューターで、Green500 で 第 3 位、TOP500 で第 29 位に相当します。NVIDIA の Selene スーパーコンピューターは、最新の Green500 で第 1 位、TOP500 で第 5 位にランクされています。
言語モデルがメディカル イノベーションを迅速化
UF Health の GatorTron モデルは、200 万人の患者との 5,000 万件を超えるやり取りからの記録でトレーニングされており、命を救う臨床試験の候補患者の特定、命に関わる状態の予測および医療チームへの警告、医師への臨床判断支援の提供におけるブレイクスルーとなるものです。
先頃 NVIDIA DGX SuperPOD でスーパーコンピューティング施設を強化したフロリダ大学のジョセフ グローバー (Joseph Glover) 学務担当副学長は、「GatorTron の開発には、10 年分以上の電子カルテを活用することで、最先端モデルを実現しています。こうした規模のツールにより、医療研究者が臨床ノートから洞察を引き出し、従来はわからなかった傾向を明らかにすることが可能になるでしょう」と述べています。
GatorTron モデルは、臨床医学だけでなく、臨床試験や、特定の薬剤、治療、またはワクチンの効果の研究に向けた患者コホートの迅速な作成を容易にすることで、創薬も加速させます。
このモデルは、NVIDIA のディープラーニング応用研究チームが PubMed コーパスからのデータを用いて開発した、これまでに学習された中で最大の生物医学 Transformer モデル「BioMegatron」を用いて作成されました。BioMegatron は、生物医学および臨床テキストで事前トレーニングされた NVIDIA Clara Discovery モデルのコレクションである Clara NLP を通じて、NGC 上で利用できます。
フロリダ大学で医療における課題を担当する主席理事であり、UF Health 理事長でもあるデイビッド R ネルソン (David R. Nelson) 医学博士は、「GatorTron プロジェクトは、学術界と産業界の専門家が最先端の人工知能と世界最高レベルのコンピューティング リソースを駆使して協力したときに生まれる発見を如実に示す好例です。NVIDIA とのパートナーシップは、フロリダ大学が人工知能の専門知識や開発の到達地となる上で不可欠です」と述べています。
創薬プラットフォームを強化
NVIDIA Clara Discovery ライブラリおよび NVIDIA DGX システムは、計算創薬プラットフォームにも採用され、医薬研究を促進しています。
- 化学シミュレーション ソフトウェア開発におけるリーダーである Schrödinger は本日、科学計算と機械学習の研究、NVIDIA プラットフォーム上での Schrödinger のアプリケーションの最適化、および数十億種類の新薬候補化合物を数分で評価するための NVIDIA DGX SuperPOD を中心とする共同ソリューションを含む NVIDIA との戦略的提携を発表しました。
- バイオテクノロジ企業の Recursion は、NVIDIA DGX SuperPOD リファレンス アーキテクチャをベースとした、2021 年 1 月の時点で TOP500 で第 58 位にランクされるものと推定されるスーパーコンピューター「BioHive-1」を導入しました。BioHive-1 により、Recursion は、従来既存のクラスターを使用して完了までに 1 週間を要していたディープラーニング プロジェクトを 1 日で実行できるようになります。
- NVIDIA Inception Program のパートナーである Insilico Medicine は先頃、特発性肺線維症の治療のための前臨床新薬候補を特定したことを発表しました。これは、臨床試験候補の新規疾患ターゲットに対する AI 設計分子の初めての例です。化合物は、NVIDIA Tensor コア GPU を搭載したシステムで生成されました。ターゲット仮説から前臨床候補の特定までに要した期間は 18 か月足らずで、コストも 200 万ドル以内に収まりました。
- NVIDIA Inception Program のメンバーである Vyasa Analytics は、Clara NLP および NVIDIA DGX システムを使用して、ユーザーが事前トレーニング済み生物医学研究モデルを利用できるようにしています。同社の GPU アクセラレーション対応 Vyasa Layar Data Fabric は、複数機関によるがん研究、臨床試験分析、および生物医学データの融合などのためのソリューションを開発する原動力となっています。
ヘルスケア分野における NVIDIA の取り組みについては、今週の GPU Technology Conference における、ヘルスケア トラックをご確認下さい。16 のライブ ウェビナー、18 の特別イベント、100 以上の録画セッションが予定されています。