無限のデータ、無限の可能性:UF Health と NVIDIA が世界最大の臨床言語ジェネレーターを構築

投稿者: Anthony Costa

研究者は、稀少疾患研究や臨床試験、そしてデータセットの偏り解消のためのより良い AI の開発に SynGatorTron を活用予定

フロリダ大学の学術医療センターである UF Health は、合成臨床データを生成するニューラルネットワークを NVIDIA と共同開発しました。これは、研究者がヘルスケア分野における他の AI モデルのトレーニングに利用できる、強力なリソースです。

200 万人以上の患者に相当する 10 年分以上のデータでトレーニングされた SynGatorTron は、学習した医療記録を再現した合成患者プロファイルを生成できる言語モデルです。この 50 億パラメーターのモデルは、ヘルスケア業界最大の言語ジェネレーターです。

UF Clinical & Translational Science Institute の研究担当アシスタント バイスプレジデント兼ディレクターであるデュエイン ミッチェル (Duane Mitchell) 氏は、次のように語ります。「合成データは、実際には実在の人物に関連していませんが、実際の患者に似た特徴を持っています。例えば、SynGatorTron はまるで実際の集団のような特徴を持つデジタル糖尿病患者の医療記録を作り出すことができます。」

この合成データを利用すれば、研究者はリスクやプライバシーの問題を気にせずにツールやモデル、タスクを開発できるようになります。そして、実際のデータでそれらを応用することで、臨床上の問題に対する答えや関連性を見つけたり、患者のアウトカムを探ったりすることができます。

合成データを利用することで、他の研究機関とのモデルの共同研究や共同運用も容易になります。しかも、合成可能なデータ量はほぼ無限であるため、SynGatorTron で生成されたデータを利用すれば、稀少疾患患者や少数集団の少ないデータセットを拡張してモデルの偏りを減らすことができます。

SynGatorTron は、オープンソースの NVIDIA Megatron-LM および NeMo フレームワークを使用して開発されました。昨年の NVIDIA GTC で発表された UF Health の GatorTron モデルをベースにしており、最速のスーパーコンピューターのトップ 30 にランクされている同学の NVIDIA DGX SuperPOD システム、HiPerGator-AIでトレーニングされました。

SynGatorTron で生成された合成データでトレーニングされた BERT スタイルの Transformer モデル、GatorTron-Sは、来月より NGC ソフトウェア ハブで開発者向けに提供される予定です。

SynGatorTron が強力なトレーニング データへの扉を開く

医師にとって、AI で生成された医師の指摘は、一見非現実的のように見えるかもしれません。実際の患者を表しておらず、専門家の目には論理的ではないからです。そのため、臨床医が分析や診断を直接行うことはできませんが、トレーニング前の AI にとっては、実際の臨床データと合成臨床データのどちらも非常に貴重です。

NVIDIA の医療 AI 担当グローバル責任者であるモナ フローレス (Mona Flores) 博士は、次のように述べています。「SynGatorTron の生成能力は、医療用の自然言語処理の重要な実現手段です。さまざまなタイプのカルテの合成は、データ不足やプライバシーの問題に対処することで、こうしたデータに依存するあらゆる種類のアプリケーションを開発する能力の民主化につながるでしょう。」

提供が開始されれば、UF Health 以外の研究機関はトレーニング済みの SynGatorTron モデルを独自データで微調整し、それぞれの AI プロジェクトに応用することが可能になります。例えば、与条件または患者集団が医療システムの臨床データ内に少数しか存在しない場合、SynGatorTron に指示してその疾患または集団の特徴を持つ追加のデータを生成することができます。

AI で生成されたこうした記録を利用すれば、他のニューラルネットワークのトレーニングに使用される実際のヘルスケアのデータセットを、対象集団をより的確に代表するように補完してバランスを調整することが可能になります。

合成トレーニング データセットは、特定の患者に関連付けることなく実際の医療記録を再現するため、研究機関の間でプライバシーの問題を気にすることなく簡単に共有することもできます。

「実際の患者に紐付けすることなく集団の特徴を再現できるということは、対象の患者に関する情報やアクセスが限られている現状では答えを導き出すことができない問題の解決につながる、リアルなデータセットを生成できるのではないかという可能性にも期待が膨らみます」とミッチェル氏は言います。

有望なアプリケーションの 1 つとして、新薬の有効性を測定するために被験者を治療群と対照群に分けることが多い臨床試験が挙げられます。SynGatorTron で生成されたデータから導かれたアプリケーションは、実際の記録を解析して患者記録のデジタルツインを構築することができます。そうすれば、実際の患者にプラセボ治療を施すことで対照群を確保する代わりに、それらの記録を臨床試験で対照群として使用することが可能になります。

稀少疾患や特定の集団に関する治療効果を研究するためのディープラーニング モデルを開発している研究者も、データ拡張のために SynGatorTron を利用すれば、より多くのトレーニング データを生成して、実際に利用できる限られた医療記録を補完することができます。

GTCにおけるヘルスケアのセッション

3 月 21 ~ 24 日にオンラインで開催された GTC では、AI およびヘルスケア分野の最新の研究成果が紹介されました。ご登録済みの方はオンデマンドでセッションを視聴できます。「A Next-Generation Clinical Language Model (次世代の臨床言語モデル)」のセッションでは、SynGatorTron の開発者たちの話を聴くことができます。

また、NVIDIA の創業者/ CEO であるジェンスン フアン (Jensen Huang) によるGTC 基調講演のリプレイもぜひご視聴ください。