医療分野でトピックモデルを利用した研究(その4)

[8]Evaluating disease similarity using latent Dirichlet allocation

テキストで記述された疾患からLDAを用いて疾患間の類似性を求める研究。
LDAによって(疾患ラベルを割り当てた)1,311のドキュメントのトピック分布を求め、トピック分布間のKL-divergenceで疾患間の類似性を測っている。

評価方法:この手法で求めた疾患間の類似性をDO(Disease Ontology)による基準(DOの階層で3階層以内に同一の祖先がいれば同じ疾患とみなすという基準)をGold Standardとして感度特異度分析を行った。

疾患1 疾患2 KL-divergence
D1 D2 d1,2
D1 D3 d1,3
・・・ ・・・ ・・・
D1 D1310 d1,1310
図1.疾患間の類似性

ある疾患Diとそれ以外の疾患Dj (i != j)の組み合わせについてトピック分布のKL-divergenceを計算し(図1)、KL-divergenceの昇順(類似している準)に並べ替え、上からn個がPositive、残りがNegativeとしてGold Standardを使ってnを変えながら感度特異度分析を行う。これによってAUCを1つ得ることができる。

図2.ROC曲線(原論文のFigure 2)

これをすべてのiについて行えば、全部で1,311個のAUCが得られる。

モデル選択(トピック数の決定):トピック数を変えながら感度特異度分析を行って最大AUCを与えるトピック数を最適なトピック数とした。

図3.平均AUCのトピック数依存性(原論文のFigure 3)
なお、図3において抽出単語数を5k, 7k, 10kと変えて実験を行っている。ここで、抽出単語とはあらかじめ設定した基準を上回る出現頻度の単語の集合のことである。

読後感


テキストを対象とした典型的なLDAの応用例。疾患に関するテキストをコーパスとし、LDAによってテキストのトピック分布を求めている。これによって疾患のベクトル表現を得ている。これは広大な単語空間を小数次元のトピック空間に次元削減するのと等価で、これもLDAの一側面を表している。
興味深いのは、テキストを単語空間のベクトルとみなして主成分分析(PCA)を行い、次元削減したものとLDAを比較していることである。
トピック数と同数の主成分を残し、その主成分空間上のユークリッド距離で疾患間の類似性を定義し、LDAの場合と同じやり方でDOをGold Standardに用いて感度特異度分析を行ったところ、なんとほぼ同様な特性を示した。

図4.LDAとPCAにおけるAUCのトピック数(主成分数)依存性

図4では、トピック数がほぼ20あたりでLDAと主成分数が同数のPCAが同程度のAUCを実現している。この結果からトピック数は主成分分析における主成分の数とほぼ同じ役割をしていることがわかる。すなわちデータを要約する上で最適な次元数を表しているものと考えられる。
この知見は当然と言えば当然かもしれない。なぜならLDAであれPCAであれ、次元削減モデルは同じ最適な次元を導き出すだろうから。もし、モデルによって異なる次元数が得られたなら、むしろその方が奇妙である。


0 件のコメント:

コメントを投稿

ChatGPT は、米国の医師免許試験に太刀打ちできるか?

A Gilson et al.: How Does ChatGPT Perform on the United States Medical Licensing Examination? The Implications of Large Language Models for ...