NVIDIA

お使いのブラウザーは対応していません。

お使いのウェブブラウザーはこのウェブサイトでは対応していません。いくつかの機能が正常に動作しない可能性がございます。アップグレートいただくか下記のブラウザーのどれかをインストールください。よろしくおねがいします。

NVIDIA、大規模言語モデルを生物学に拡大

hc-blog-bionemo-no-att-1260x680-1

大手製薬企業、バイオテクノロジーのスタートアップ企業、および先駆的な生物学研究者が BioNeMo LLM サービスおよびフレームワークを使って AI アプリケーションを開発し、生体分子データを生成、予測および理解

科学者が、DNA、タンパク質、および生命の他の構成要素の新たな洞察を模索する中、NVIDIA GTC で発表されたNVIDIA BioNeMo フレームワークはそのような研究を加速するでしょう。

NVIDIA BioNeMo は、生体分子に関係する大規模言語モデルを、スーパーコンピューターなみの規模でトレーニングおよび展開するためのフレームワークであり、科学者が疾病についての理解を深め、患者の治療法を発見するのに役立ちます。この大規模言語モデル (LLM) フレームワークは、化学、タンパク質、DNA および RNA のデータ フォーマットに対応します。

LLM フレームワークは、創薬用のフレームワーク、アプリケーションおよび AI モデルで構成された NVIDIA Clara Discovery コレクションに含まれています。

AI が LLM で人間の言語を理解することを学ぶのと同じように、生物学と化学の言語も学んでいます。生体分子データのきわめて規模の大きいニューラル ネットワークのトレーニングをより簡単に行えるようにすることで、NVIDIA BioNeMo は研究者が生物学的配列のパターンや洞察を発見するのを助けます。研究者は、このようにして得られた洞察を生物学的な特性あるいは機能、ならびに人間の健康状態にも結びつけることができます。

NVIDIA BioNeMo は、研究者がより大きなデータセットを使って大規模言語モデルのトレーニングを行うためのフレームワークとして機能するため、結果的にニューラルネットワークの性能を高めることが可能になります。このフレームワークは、GPU に最適化されたソフトウェア ハブである、NVIDIA GPU Cloud よりアーリーアクセスで入手できるようになります。

言語モデルのフレームワークに加え、NVIDIA BioNeMo には、増え続ける事前トレーニング済み AI モデルをサポートする、クラウド API サービスも含まれています。

BioNeMo フレームワークがより大規模なモデルに対応し、予測精度を向上

現在、生物学データに自然言語処理モデルを使用している科学者には、個別の前処理が必要な、比較的小規模なニューラルネットワークをトレーニングしている人が多くいます。BioNeMo の導入により、このような科学者は、分子構造やタンパク質溶解性などの情報を捉える、数十億のパラメーターからなる LLM にスケールアップすることができます。

BioNeMo は、大規模な自己教師あり学習の言語モデルを GPU でトレーニングするための NVIDIA NeMo Megatron フレームワークを発展させたものです。BioNeMo は領域特化型であり、化学構造の SMILES 記法、ならびにアミノ酸および核酸の FASTA シーケンス文字列で表示される分子データに対応しています。

OpenFold Consortium の創立メンバーで、コロンビア大学システム生物学部助教のモハメド アルクライシ (Mohammed AlQuraishi) 氏は、次のように話しています。「このフレームワークにより、ヘルスケアおよびライフサイエンスの分野の研究者は、急速に拡大しつつある生物学および化学のデータセットを活用できるようになります。その結果、疾病の分子署名を正確に狙った治療法の発見および設計をより簡単にできるようになります」

化学および生物学向けの LLM を備えた BioNeMo サービス

デジタル生物学および化学向けの LLM を使ってすぐに研究を開始したいという開発者のために、NVIDIA BioNeMo LLM サービスには、事前トレーニングされた 4 つの言語モデルが含まれています。以下に記されている、これらの言語モデルは推論に最適化されており、アーリーアクセスによって、NVIDIA DGX Foundry で実行されるクラウド API を通じて利用することができるようになります。

  • ESM-1: このタンパク質の LLM は、もともと Meta AI Labs より発表されたもので、アミノ酸配列を処理して、タンパク質の多様な特性と機能を予想するための表現を生成します。さらに、これによって、科学者はタンパク質の構造をより深く理解できるようになります。
  • OpenFold: 最先端のタンパク質モデリング ツールを作っている官民のコンソーシアムが提供している、オープンソースの AI パイプランが BioNeMo サービスから利用できるようになります。
  • MegaMolBART: 14 億個の分子データでトレーニングされたこの生成化学モデルは、反応予測、分子最適化およびデノボ分子生成に使用することができます。
  • ProtT5: ミュンヘン工科大学の RostLab を主体とし、NVIDIA も参加するコラボレーションを通じて開発されたこのモデルは、ESM-1b がシーケンス生成に対するのと同様の手法で、タンパク質 LLM の機能を拡大します。

将来には、BioNeMo LLM サービスを利用する研究者は、それぞれのアプリケーションでの精度を高めるために、LLM モデルのカスタマイズをわずか数時間で行えるようになります。その際にはファイン チューニングするだけではありません。現在、数百万のデータセットが必要とされるようなトレーニングも、たった数百の例で構成されるデータセットで行えるトレーニング手法である、P-チューニングのような新手法も利用できるようになるでしょう。

スタートアップ企業、研究者および製薬企業が NVIDIA BioNeMo を導入

バイオテクノロジーおよび製薬業界では、NVIDIA BioNeMo を導入して、創薬研究に活用する企業が続々と登場しています。

  • AstraZeneca と NVIDIA は、Cambridge-1 スーパーコンピューターを使って、BioNeMo LLM サービスに含まれている MegaMolBART モデルを開発しています。バイオ医薬品企業である AstraZeneca は、BioNeMo フレームワークを使って、小分子やタンパク質だけではなく、やがては DNA についての世界最大規模の言語モデルのトレーニングを支援する予定となっています。
  • MIT ハーバード大学ブロード研究所 (Broad Institute of MIT and Harvard) の研究者は、NVIDIA と協力して BioNeMo フレームワークを使い、次世代の DNA 言語モデルを開発しています。これらのモデルは、生物医学の研究者がデータをセキュアかつ大規模に共有、利用および分析できるようにすることを目的とする、Terra に組み込まれます。Terra はブロード研究所、Microsoft および Verily が開発したクラウド プラットフォームです。これらの AI モデルは BioNeMo サービスのコレクションにも追加される予定です。
  • OpenFold コンソーシアムでは、アミノ酸配列から分子構造を実験並みの精度で予測することのできる AI モデルの開発に向けた研究で、BioNeMo フレームワークを活用予定です。
  • Peptone は、安定した 3D 構造を持たない、天然変性タンパク質のモデリングに焦点を当てています。同社は NVIDIA と共同で、NeMo フレームワークを使った ESM モデルのバージョンを開発しており、ここでも、BioNeMo がベースとなっています。NVIDIA の Cambridge-1 スーパーコンピューターで行われる予定のこのプロジェクトは、Peptone の創薬活動をさらに発展させるでしょう。
  • シカゴのバイオテクノロジー企業である Evozyne は、エンジニアリングとディープラーニング テクノロジを組み合わせて新たなタンパク質を設計し、治療法とサステナビリティの長年にわたる課題を解決しようとしています。

Evozyne の共同創業者/コンピュテーション部門ヘッドのアンドリュー ファーガソン (Andrew Ferguson) 氏は、次のように話しています。「BioNeMo フレームワークは、LLM のパワーを効率的に活用することで、データ主導型のタンパク質設計をデザイン、ビルド、テストというサイクルのなかで実現してくれるテクノロジです。これによって、人間の健康や持続可能性といった用途で使用できる、新しい機能タンパク質の設計に対する影響が直ちに現れるようになるでしょう」

NVIDIA Inception プログラムのスタートアップ バイオテクノロジー企業である Peptone の機械学習担当リードであるイストヴァン レドル (Istvan Redl) 氏は、次のように話しています。「タンパク質分野では大規模言語モデルの導入が拡大を続けており、LLM を効率的にトレーニングし、モデルのアーキテクチャをすばやく調整できる能力が、きわめて重要になりつつあります。拡張性と迅速な実験という、 2 つのエンジニアリング上の利点は、まさに BioNeMo フレームワークでのみ実現できることだと思います」

NVIDIA BioNeMo LLM サービスまたは BioNeMo フレームワークは、アーリーアクセスの申請を受け付け中です。BioNeMo の MegaMolBART 化学モデルを試してみたい方は、LLM のトレーニングと展開に関する無料のラボの利用を NVIDIA LaunchPad を通じて申請してください。

9 月 22 日 (木) までオンラインで開催されているGTCでは、最新の AI およびヘルスケアについての情報を知ることができます。登録は無料です。ジェンスン フアンの基調講演のリプレイもぜひご視聴ください。

※メイン画像:マヘンドラ アウェイル (Mahendra Awale) 氏作、Wikimedia Commons を通じて CC BY-SA 3.0 でのライセンス許可済み


You may also like...