遺伝子研究向け非識別加工データの世界最大級のリポジトリが科学者にNVIDIA Clara Parabricksへのアクセスを提供、ゲノムおよび創薬研究を能率化
UKバイオバンクは、膨大なデータセットと共に、NVIDIA GPUによって高速化された解析ツールをクラウド上で提供を開始しました。これにより、より多くの科学者がより簡単に、高品質なゲノムデータおよび解析ツールにアクセスできるようになりました。
UKバイオバンクには、世界中で2万5千人以上の研究者が利用登録しています。同機関は、英国全土で50万人以上の登録者が提供する医用画像および健康記録データに加え、非識別加工の遺伝子データセットを有する、大規模なバイオメディカル データベースおよび研究資源となっています。
バイオ医薬品製薬大手のリジェネロン (Regeneron) は、同社の高性能配列解読センターであるリジェネロン遺伝学センター (Regeneron Genetics Center) において、最近、UKバイオバンクと共同で、バイオバンク登録者全員のゲノムの全タンパク質コーディング領域であるエクソームの配列決定および解析を行いました。
リジェネロンのチームは、エクソーム シーケンシング工程において、次世代シーケンシング データの二次ゲノム解析向けのソフトウェア スイート、NVIDIA Clara Parabricksを利用しています。
UKバイオバンクは、こうしたエクソームのうち45万人分を承認された研究者がアクセスできるように公開していますが、今回、研究者がクラウドベースのResearch Analysis Platformを通じて、6か月間無料でClara Parabricksにアクセスできるようにしました。Research Analysis Platformは、バイオインフォマティクス プラットフォームを提供するDNAnexusによって開発されたもので、このプラットフォームを利用すれば、研究者はAWSクラウド上のNVIDIA GPUで動作するClara Parabricksを使用することができます。
UKバイオバンク副社長のMark Effingham氏は、以下のように述べています。「リジェネロン社が実証しているように、高速化されたGPUとClara Parabricksによって、ゲノムデータセットを大規模処理する際に必要な処理能力、スピード、再現性が実現します。英国内の多くの研究グループが、こうした高速化ツールがUKバイオバンクの広範なデータセット向けのプラットフォーム上で利用できるようになることを強く求めていました」
Clara Parabricksでリジェネロンのエクソーム研究が促進
リジェネロンの研究者たちは、NVIDIA Clara ParabricksのDeepVariant Germline Pipeline を利用して、同社遺伝子センターのワークフローに特有のモデルで分析を実施しました。
同研究者たちによって、健康関連形質に関連する1,200万のコーディング バリアントおよび数百の遺伝子が特定されました。ある種の遺伝子は肝疾患および眼疾患のリスク増加と関連しており、別の遺伝子は糖尿病および喘息のリスク低下と関連していました。
研究者たちが高品質なバリアント検出に利用した独自のツールセットは、Research Analysis Platformを通じて、UKバイオバンク登録ユーザーが使用できるようになっています。本機能を利用すれば、科学者は、初期参照データセットの生成に利用したものと同一のバイオインフォマティクス パイプラインを実行することにより、独自のエクソーム データをUKバイオバンクのエクソーム シーケンス データと融合させることができます。
アクセスの公平性を高めるクラウドベースのプラットフォーム
ヒトおよびヒトに感染するウイルスや細菌の遺伝暗号を解読する研究は、研究者が利用する計算リソースによって制限されていることが多々あります。
UKバイオバンクは、データセットを世界中の科学者に公開し、誰でもデータにアクセスできるようにしています。特に、若手研究者や低・中所得国の研究者による利用拡大に重点を置いています。研究者は、この膨大なデータセットをダウンロードして自分の計算リソースで使用するのではなく、ウェブブラウザを介してUKバイオバンクのクラウド プラットフォームを利用することができます。
「UKバイオバンクのデータへのアクセスを希望する研究者や臨床医から連絡を受けていましたが、彼らは比較的小規模なデータの処理に必要な最低限の計算リソースにアクセスするのにも苦労していました。クラウドベースのプラットフォームを利用すれば、大規模なエクソーム配列解析や全ゲノム配列解析に必要な世界最高レベルの技術にアクセスできるようになるのです」とEffingham氏は述べています。
同氏によると、このプラットフォームを利用する場合、研究者が負担するのは、解析の計算料金と、バイオバンクのペタバイト規模のデータセットから発生した新しいデータの保存料金のみです。
DNAnexusでClara Parabricksを利用することで、このゲノム解析の時間とコストを削減し、32 vCPUマシンで1時間近くかかる計算を5分未満で実行する全エクソーム解析を実現できます。また、コストも約40%削減できます。
エクソーム シーケンシングを利用してプレシジョン メディシンに関する見識を得る
遺伝と疾病との関連を研究する研究者にとって、エクソーム シーケンシングは重要なツールであり、UKバイオバンクのデータセットには、50万人近い参加者のエクソームが含まれています。
エクソームはヒトゲノムの約1.5%を占め、既知の遺伝子すべておよびその調節エレメントで構成されています。大規模で多様な集団にわたってエクソームの遺伝的バリアントを研究することにより、科学者は集団の構造を従来よりも深く理解できるようになり、研究者が進化という問いに取り組み、ゲノムの機能を記述するよう役立てることができます。
UKバイオバンクのデータセットのような大規模なデータセットを使用すれば、心血管疾患、神経変性疾患、ある特定のがんなどの遺伝性疾患に関連する特異的な遺伝的バリアントを特定することも可能です。
エクソーム シーケンシングを利用すれば、COVID-19による重症疾患のリスクを増加または減少させる可能性のある、潜在的な遺伝的要因を解明することさえ可能であると、Effingham氏は述べています。パンデミックが続く中、UKバイオバンクは、何千人もの参加者のCOVID-19感染症例データ、ワクチン接種状況、画像データ、および患者転帰を、同社のデータベースに追加しています。
DNAnexusが開発したUKバイオバンクResearch Analysis Platformで、NVIDIA Clara Parabricksを始めてみてください。エクソーム シーケンシング プロジェクトの詳細をお知りになりたい方は、こちらのオンライン ウェビナーにご登録ください。本ウェビナーは、2月18日午前1時(日本時間)に開催予定です。
※トップ画像は、参加者のサンプルを保存しているUKバイオバンクの冷凍庫施設です。(画像提供 : UKバイオバンク)