がんとの闘いをより有利に進めるには、データが必要です。しかも、大量のデータが。
がんは珍しい病気ではないため、データは豊富に存在します。何百万人ものがん患者に関する病理報告が含まれた医療記録から、がん患者の死亡記事が詰まった新聞アーカイブまで、すべてが揃っています。
そのすべての情報によって、人口統計とがん患者集団の転帰間のつながりを特定するのに利用できる、分散型データベースが効果的に作成されています。しかし、膨大な量の非構造化テキスト・データを分析するには、それ相応の時間がかかります。そのため、米国立がん研究所(NCI)の「Surveillance, Epidemiology, and End Results」(SEER:監視疫学遠隔成績)プログラムでは通常、がんの年次統計データを5年遅れで報告しています。
そこで、米オークリッジ国立研究所(ORNL)のHealth Data Sciences Instituteの研究者チームは、研究のペースを加速するため、GPU、ディープラーニング・アルゴリズム、データ分析および抽出テクノロジを、ORNLの「Titan」スーパーコンピューターと組み合わせました。
「目標は、がんとの闘いにおいて国家として前進していると言えるようになることです」と、Health Data Sciences Instituteのディレクターであるジョージア・トゥーラッシ(Georgia Tourassi)氏は言います。
同時進行するプロジェクトをディープラーニングが加速
トゥーラッシ氏のチームは、がんのパターンに関する新たな洞察を引き出すことを目的とした2種類のプロジェクトで、病理報告と死亡記事の両方に取り組んでいます。開始から4年目となる死亡記事プロジェクトは、NCIからの助成金ですべてまかなわれてきました。研究者チームは、調査を自動化でき、より包括的な疫学的研究に利用できる分析ツールの開発を進めています。
プロジェクトの最終段階で、同チームはデータ並列処理と呼ばれる手法を利用しました。この手法では、データがTitan上の異なる計算ノード間で分割されるため、同じプロセスを異なるデータ・セグメントに同時に適用できます。その結果、データの分析と抽出作業を向上させるディープラーニング・ネットワークを構築するための活動が加速されています。
一方で、チームは、同様のアプローチを使用して、何百万ものがんの病理報告を分析することを求められました。死亡記事の活動と同じようには進んでいませんが、こちらのプロジェクトではディープラーニングのトレーニングからより大きなメリットが得られることがわかり、最近研究に取り入れられました。
トゥーラッシ氏は次のように説明します。「研究結果から、ルールに基づく従来のシステムに比べ、ディープラーニングによって少しずつ前進していることがわかります。これは大いに期待できる状況であり、私たちは引き続き研究を進める予定です」
「ビッグ・ダーティ・データ」への挑戦
従来のテキスト・マイニング・システムや初期のディープラーニング・システムの多くは、専門家が自分たちの知識に基づき臨床データを解釈して、システムの学習を導く必要があります。しかし、ゆくゆくは、ディープラーニング・システムが人の支援を必要とせず臨床病理報告を解釈できるようになることで、自動的かつ動的に「ビッグ・ダーティ・データ」を精選する方法が得られるものと期待されています(トゥーラッシ氏は、品質を制御する手段のないデータを「ビッグ・ダーティ・データ」と呼んでいます)。
どちらのプロジェクトでも、Titanでのディープラーニング・トレーニングを加速するため、NVIDIA Tesla K20 GPUアクセラレータが利用されています。トゥーラッシ氏によると、死亡記事プロジェクトでは、GPUによってCPUの場合よりも8~10倍処理速度が高まったということです。また、病理報告プロジェクトについては、まだ始まったばかりなので明確なデータは得られていませんが、同様のメリットを示す兆候がすでに確認されています。
同氏は次のように述べています。「どちらの応用においても臨床成績の向上が見られたことから、私はGPUを信頼しています。これらのツールを拡張してスーパーコンピューターで利用する価値がわかるようになりました」
両プロジェクトの目標は明らかですが、あらゆる優れた研究者がそうであるように、トゥーラッシ氏もこれらの取り組みをさらに推し進め、がんの研究結果の報告をできるだけリアルタイムに近づけられるようにしたいと考えています。
同氏は先を見据えて次のように語ります。「私たちは情報科学ツールを開発し、それらに異なるレジストリを提供して、情報抽出を加速できるようにしたいと思っています。がんの調査監視プログラムを近代化することが私たちの望みです