ハーバード大学とNVIDIA の研究者が細胞内 DNA のアクティブな領域の特定にAIを活用、ゲノミクスにおけるブレイクスルーを実現

投稿者: Johnny Israeli

『Nature Communications』誌でも紹介されたエピゲノム研究向けのディープラーニング ツールキットのAtacWorksが、希少なシングルセル実験に必要となるコストと時間を削減

スーツケースにクローゼットの服をすべて詰め込んで移動する旅行者のように、体内のほとんどの細胞にはその人の DNA の完全なコピーが詰まっており、核には数十億の塩基対が詰め込まれています。

しかし個々の細胞は、機能するのに必要な部分の遺伝子のみを発現させ、肝臓、血液、皮膚細胞などの細胞タイプごとに異なる遺伝子を活性化します。DNA の領域のうち、細胞固有の機能を決定する領域は簡単にアクセスできるように開かれていますが、それ以外の領域はタンパク質の周りに巻き付いたままになっています。

NVIDIA とハーバード大学幹細胞再生生物学部の研究者たちは、上記のアクセス可能な DNA 領域を研究するのに役立つディープラーニング ツールキットを開発しました。このツールキットは、サンプル データにノイズが多い場合やデータが限られている場合でも研究に用いることができ、さらにはがんや遺伝子病の早期発見に役立てることもできます。

最新の『Nature Communications』誌でも特集されたこのツールキット、 AtacWorks は、シーケンス データのノイズ除去およびアクセス可能な DNA 領域の特定をどちらも行うことができ、NVIDIA Tensor コア GPUを使用することで、わずか 30 分で全ゲノムの推論を実行できます。AtacWorks は、GPU に最適化されたNVIDIAのソフトウェアのハブである NGC から利用可能です。

AtacWorks は ATAC-seq と連携します。ATAC-seq は、健康な細胞と病気の細胞の両方でゲノムのオープン領域を見つけ、創薬に役立つ重要な洞察を獲得するためによく用いられる実験手法です。

ATAC-seq は通常、クリーンな信号を取得するために数万の細胞を必要とします。そのため、血球や血小板を生成する幹細胞など、希少な細胞タイプを調査することは非常に困難です。AtacWorks を ATAC-seq データに適用することにより、わずか数十個の細胞で同じ品質の実験結果が得られるため、科学者は希少な細胞タイプにおいて活性化しているシーケンスについてさらに研究でき、病気の発症率を高める変異を特定することができます。

本論文の共著者である、ハーバード大学助教授で ATAC-seq メソッドの開発者のジェイソン ブエンロストロ (Jason Buenrostro) 氏は、論文の中で次のように述べています。「AtacWorks を用いることで、通常は 10 倍の細胞を必要とするシングルセル実験を行うことができます。GPU によって高速化されたディープラーニングを使用して低品質のシーケンス カバレッジをノイズ除去することで、希少な細胞の発達や疾患に関するエピジェネティックな変化の研究が大きく前進するでしょう。」

ノイズを除去して発見能力を向上

ブエンロストロ氏は 2013 年に、エピゲノムをスキャンしてクロマチンという染色体内のアクセス可能な領域のある場所を特定する方法として ATAC-seq を開発しました。大手のゲノミクス研究所や製薬会社の間で広く採用されているこの手法は、ゲノム全体のすべての領域で信号の強度を測定します。信号のピークは、オープンな DNA 領域に対応します。

実験に使用できる細胞が少ないほど、データのノイズが多くなり、DNA のどの領域がアクセス可能であるかを特定するのが困難になります。

PyTorch ベースの畳み込みニューラルネットワークである AtacWorks は、ATAC-seq データセットの対応するラベル付きペア (高品質のデータセットとノイズが多いデータセットのペア) でトレーニングされました。モデルにはダウンサンプリングされたデータのコピーが与えられ、ダウンサンプリング前の正確な高品質バージョンを予測し、信号のピークを特定することを学習しました。

研究者は AtacWorks を使用することで、従来の方法では 5,000 万回の読み取りで得たクリーンなデータセットを使用する必要があった、アクセス可能なクロマチンの特定が、100 万回の読み取りで得たノイズの多いシーケンスで可能であることを発見しました。AtacWorks のこの機能により、科学者の研究に必要となる細胞はこれまでより少なく済むため、サンプルの収集やシーケンシングのコストを大幅に削減できます。

AtacWorks を使用すると、解析も高速かつ低コストで行うことができます。NVIDIA Tensor コア GPU で実行した場合、モデルは 30 分かからずにゲノム全体の推論を実行しました。このプロセスを 32 個の CPU コアを搭載したシステムで実行すると15 時間かかります。

本論文の筆頭執筆者である NVIDIA の研究者アヴァンティカ ラル (Avantika Lal) は次のように述べています。「非常に希少な細胞タイプでは、既存の方法を使用して DNA の違いを研究することはできません。AtacWorks により、クロマチンのアクセス可能性に関するデータの収集コストが削減されるだけでなく、創薬や診断の新しい可能性が開かれていくでしょう。」

病気や創薬への洞察を得る

DNA のアクセス可能な領域を調べることにより、医学研究者たちはアルツハイマー病、心臓病、がんなどの疾患にかかりやすくしている特定の変異やバイオマーカーを特定できるようになるかもしれません。また、この研究で得られる知識によって、病気のメカニズムについての理解がさらに深まり、創薬にも新たな情報が加わることになります。

『Nature Communications』誌の論文では、ハーバード大学の研究者が AtacWorks を、赤血球と白血球を生成する幹細胞のデータセット (従来の方法では研究できなかった希少なタイプ) に適用しています。

チームは AtacWorks を使用し、わずか 50 個の細胞のサンプル セットのみで、白血球に発達する細胞に関連する DNA の特異な領域を識別し、赤血球と相関するシーケンスを分離することができました。

4 月 12 日から 16 日まで開催される GPU テクノロジ カンファレンスで、NVIDIA のヘルスケアにおけるさまざまな取り組みをご紹介します。参加登録は無料です。ヘルスケアのセッションでは、16 のライブ ウェビナーや 18 のスペシャル イベントのほか、100 を超える録画セッションも予定されています。また、アヴァンティカ ラルも「Deep Learning and Accelerated Computing for Epigenomic Data(エピゲノム データにおけるディープラーニングとアクセラレーテッド コンピューティングの活用)」という題目で登壇予定です。

NVIDIA ヘルスケア ニュースにもぜひご登録ください。

『Nature Communications』掲載の本論文の DOI は 10.1038/s41467-021-21765-5 です。