腸で直感: ヒトのマイクロバイオームが COVID-19 の謎を解明する

投稿者: Geetika Gupta

カリフォルニア大学サンディエゴ校の研究者が NVIDIA の GPU で微生物の解析を 500 倍に高速化。

米国で全国的なロックダウンが行われる数日前、ダニエル マクドナルド (Daniel McDonald) 氏は、自らのライフワークが COVID-19 と戦うためのまたとないツールであること気がつきました。

マクドナルド氏のチームが作った何十万もの検査キットが、病気を引き起こす新型コロナウイルスの解明に役立つかもしれません。

マクドナルド氏は、マイクロバイオーム研究という新興分野でアメリカン ガット プロジェクトおよびマイクロセッタ イニシアチブの科学ディレクターを務めています。マイクロバイオームは単細胞生物の集まりであり、私たちの内部や周囲にいる生物のほとんどの生命を構成しています。この検査キットは、室温で保存されたヒトの便からサンプルを安全に採取して送ることを初めて可能にしました。

当初、このキットは微生物学分野の幅広い研究に向けられていました。しかしマクドナルド氏も同僚たちも、今回のパンデミックに方向を転換しなければならないことがわかっていました。

注意深くスクリーニングすれば、突然変異を起こした新型コロナウイルスがどのように拡散してきたのか、サンプルからそのパターンがわかるかもしれません。それは、新たな感染の広がりを抑えようとしている公衆衛生の専門家にとって、きわめて貴重な情報となるでしょう。

マクドナルド氏のチームはまた、参加者から十分なデータを集めて、研究者がもう一つの謎を探究できるようにしたいとも考えています。それは、このウイルスで重症になる人もいれば、全く症状が現れない人もいるのはなぜなのかということです。

カリフォルニア大学サンディエゴ校のロブ ナイト (Rob Knight) 氏の研究室で 50 人のチームの一員として研究を行うマクドナルド氏は、次のように述べています。

「自分の活動が命を救うことにつながるかもしれないと、ここにいるみんながやる気いっぱいです。RNA や、このウイルスの研究に応用できるさまざまな分野の専門家と密に連携できて、私たちは幸運だと思います」

抜群のタイミングでアクセラレータを投入

検査キットが形になりつつあるころ、チームに別のところから幸運がやってきました。

サンディエゴ スーパーコンピューター センターのリード サイエンティフィック ソフトウェア開発者であるイゴール スフィリゴイ (Igor Sfiligoi) 氏が、マイクロバイオームの解析に使われているソフトウェアで大きなパフォーマンスを必要とする UniFrac の最新バージョンを、NVIDIA GPU に移植したのです。その結果は驚くべきものでした。

サーバーのクラスターで 1,300 CPU コア時間 (または CPU 1 基で 約 900 時間) を必要とする、11 万 3,000 件ものサンプルの遺伝子解析に、NVIDIA V100 Tensor コア GPU 1 基で 2 時間もかからずに完了したのです。これは 500 倍の高速化です。V100 GPU を 8 基使ったクラスターならば、15 分を切るかもしれません。

また、この移植によって、研究者個人が NVIDIA GeForce RTX 2080 Ti を搭載したワークステーションを使って 9 時間で解析を実行できるようになりました。更に小さなデータセットであれば、CPU 1 基のサーバーでは 13 時間かかるところ、今では NVIDIA GTX 1050 GPU を 1 基搭載したノート PC でわずか 1 時間ほどで実行できます。

「これは、高性能なコンピューターにアクセスできない人にとっては画期的なことです」マクドナルド氏は次のような例を挙げました。たとえば、個人の研究者が、アドホック クエリ向けの一種の検索ツールとして UniFrac を使えるかもしれません。

V100 GPU を 6 基搭載した研究室のクラスターなら、増大し続けるデータセットの解析にも乗り出せるでしょう。

スフィリゴイ氏による 11 万 3,000 件のサンプル解析は、「微生物の調査として、おそらくこれまでで最大規模である」とマクドナルド氏は述べています。それでも、研究室にはすでに一般の人々から届いた 30 万人分のサンプルが保管されています。「サンプル数が 100 万を超えるまで、それほど長くはかからないでしょう」

GPU による UniFrac 高速化、3 つの方法

高速化の鍵となったのは 3 つのテクニックでした。OpenACC が、Striped UniFrac コード内で何重にもかかったループを高速化し、次にスフィリゴイ氏がメモリの最適化を行いました。浮動小数点演算を 64 ビットから 32 ビットにダウンシフトすることで、実験に必要な精度を損ねることなくさらに速度を向上しました。


UniFrac を GPU に移植したサンディエゴ
スーパーコンピューター センターのスフィリゴイ氏。

スフィリゴイ氏は、最初の OpenACC による移植をほんの数日で終わらせました。その他の最適化は、UniFrac に必要な計算とメモリアクセスについてチームが理解を深めるのに合わせ、数週間かけて徐々に行われました。

この研究の直前に、スフィリゴイ氏は GTC Digitalセッションで画期的な成果を発表しました。スフィリゴイ氏とそのチームは、天文学の研究のために、パブリック クラウド サービス上の GPU からエクサスケールのパフォーマンスを利用したのです。

NVIDIA はスフィリゴイ氏の次のタスクに、ともに取り組んでいます。スフィリゴイ氏が目指しているのは、UniFrac に対して行った GPU 最適化を、微生物学者が日常的に使っているソフトウェアに統合することです。

CPU だけのシステムはデータの洪水に沈むかもしれない

一方、マクドナルド氏とそのチームは、ウイルスのデータを扱うために UniFrac を改良する必要に迫られています。また、生成する予定の膨大なデータを、適切に整理されたエラーのないデータセットに変換するという、途方に暮れるような難題にも直面しています。

テクノロジの最先端で、彼らはたくさんのストレージとコンピューティング性能を必要としています。いつか 100 万人分に達しそうなマイクロバイオームを解析するには、20 ペタバイトのストレージと年間 1 億回を超える CPU サイクルが必要です。

「それがたくさん GPU に載せられるのを見たいですね」とマクドナルド氏は言います。

様々なコロナウィルスによってどれほど長い間、人間と家畜が被害を受けてきたかを考えると、この研究には幅広い可能性があります。

「地球上の誰もが、何らかの形で生産性に対するこのような影響を感じてきたことでしょう。私たちは今、長い間ともに生きてきたこのウイルスを、どうすればもっとうまく扱えるか理解し始めなければなりません」

サンディエゴでの取り組みは、NVIDIA の GPU とハイパフォーマンス コンピューティングを活用して COVID-19 と戦う研究プロジェクトの幅広いネットワークの一部です。

アジア、オーストラリア、ヨーロッパ、米国に拠点を構える世界の 30 を超えるスーパーコンピューティング センターが、この活動に取り組んでいます。その中で COVID-19 ハイパフォーマンス コンピューティング コンソーシアムだけでも、30 を超える活動中のプロジェクトを擁し、41,000 基の GPU を含む 420 ペタフロップスの演算能力へのアクセスを提供しています。

冒頭の写真: カリフォルニア大学サンディエゴ校のナイト研究室にいるロブ ナイト氏 (左) とダニエル マクドナルド氏 (右)。写真提供: Erik Jepsen/UC San Diego Publications