機械学習の小部屋: 医療分野でトピックモデルを利用した研究（その３）

[7]Predicting inpatient clinical order patterns with probabilistic topic models vs conventional order sets

【論文概要】

トピックモデルを使って入院患者に発行するオーダパターンを予測するという論文。入院患者がドキュメント、オーダが単語、そしてオーダパターンがトピックになるのかな・・・。
評価はモデルが予測するオーダパタンと人手で作成した既存のオーダセットと比較して行っている。
評価指標として精度（Precision）と適合率（Recall）を次のように定義する。

精度（Precision）: モデルが予測したオーダのうち実際に発行されたオーダの割合
適合率（Recall）: 発行されたオーダのうちモデルが予測したオーダの割合

ここでモデルは20,000人の患者からランダムに抽出した10,655人（～50％）の患者のオーダを用いて構築した。
評価は20,000人の患者からランダムに抽出した4,820人（～25％）の患者の各々に対して入院後最初のオーダセットが発行されてから時間 t 以内に発行された実際のオーダ（これを「正しい」オーダセットと呼ぶ）とモデルが予測したオーダについて表1に示す混同行列を作成して精度と適合率を計算した。

表1．混同行列

		そのオーダは発行されたか
		Yes	No
そのオーダは予測されていたか	Yes	p	q
そのオーダは予測されていたか	No	r	s

精度 = p ÷ (p + q)
適合率 = p ÷ (p + r)

なお、あらかじめ人手によって作成された既存のオーダセットに含まれるオーダはすべて発行されるとは限らないので、実際に発行された「正しい」オーダセットと既存のオーダセットは一般に異なる。

ここで、p + r は時間 t 以内に発行された「正しい」オーダセットの数で、そのうちモデルによって予測されたオーダの数が p である。また、 p + q はモデルが予測したオーダの数で、そのうち時間 t 以内に発行されたオーダの数が p である。s はトピックモデルに基づくオーダセットにも「正しい」オーダセットにも入っていないオーダ数であるが、これがなくても精度と適合率の計算には支障はない。

ある患者（これを k とする）に対してトピックモデルに基づくオーダセットを以下のようにして作成する。
まず患者 k のトピック含有率P(Topic_j|Patient_k)を推定し、トピック j にオーダ i が含まれる確率P(Item_i|Topic_j)を用いて、患者 k にオーダ i が発行される確率P(Item_i|Patient_k)を次式で計算する。

P(Item_i|Patient_k) = Σ_j P(Item_i|Topic_j)×P(Topic_j|Patient_k)

確率P(Item_i|Patient_k)の降順にN個のオーダを並べたものがトピックモデルに基づくオーダセットとなる。ここで、N は既存のオーダセットに含まれるオーダ数である。

トピック含有率P(Topic_j|Patient_k)は患者 k に発行された実際のオーダデータを使ってトピックモデルが推定する。その際、患者 k は一般にモデルを作成するのに使用した訓練データではなく検証用データである。従ってモデルから検証用データに対するトピック含有率を求める必要があるが、Rのtopicmodelsパッケージを調べてもそのようなメソッドは見当たらない。しかし、PythonのGensimのmodels.ldamodelライブラリにはget_document_topicsという与えられたドキュメントからトピック分布を得るメソッドがある。

次に、表1の混同行列においてトピックモデルによる予測の当否の代わりに既存のオーダセットに含まれているかどうかで区分するとそのオーダセットの精度と適合率が計算できる。これとトピックモデルによる精度と適合率を比較することによりトピックモデルの評価を行う、というのがこの論文での評価方法である。

図1（論文ではFigure 4）に比較した結果を示す。

図1．オーダセットの精度の比較

図1の横軸の t は最初にオーダセットが発行されてからの時間（検証時間：followup verification time）である。t によって精度や適合率がどのように変化するのかを見ているのだろう。

最上段のグラフは「正しい」オーダの数の時間変化である。時間とともに「正しい」オーダ（Possible Items）の数は増加する。なぜなら実際に発行されたオーダを「正しい」オーダとしているからである。また、実際に発行されるオーダの中にはモデルが予測したオーダセットに含まれるオーダ（図中のTopic Models）や既存のオーダセットに含まれるオーダ（図中のOrder Sets）があり、その数も時間とともに増えている。

二段目のグラフはトピックモデルと既存のオーダセットの適合率の時間変化である。実際に発行されるオーダの中に、最初のころはトピックモデルが予測するオーダや既存のオーダセットに含まれるオーダの割合は高いだろうから適合率は高いが、時刻とともにその割合も減ってくるだろうから適合率も低くなっていくものと考えられる。

三段目のグラフはトピックモデルと既存のオーダセットの精度の時間変化である。
t が小さいうちは実際に発行されるオーダの数は N に比べて少ないので精度（p / N）は低いが、時間とともに発行されるオーダの数が増えると、その中に含まれるトピックモデルが予測するオーダや既存のオーダセットに含まれるオーダの割合も増えていくので精度も上がっていく。

最下段のグラフはAUC（Area Under Curve）をプロットしたものである。AUCを算出するにはROC曲線をプロットする必要があるが、そのためには多数の（精度, 適合率）の組が必要である。論文のFigure 3の説明には次の記述がある。

Average discrimination accuracy (ROC AUC) when predicting additional clinical orders occurring within t followup verification time of the invocation of a pre-authored order set during the first 24 hours of hospitalization for 4820 validation patients.

また、figure 4 (D)の説明には次の記述がある。

evaluating full ranking of possible orders scored by topic model or included/excluded by order sets

さらに、本文中には次のように書いてある。

Prediction of these subsequent orders is evaluated by the area under the receiver operating characteristic curve (c-statistic) when considering the full score-ranked list of all possible clinical orders. Existing order sets will have N suggested orders to choose from, so we evaluated those N items vs the top N score-ranked suggestions from the topic models toward predicting subsequent orders by precision (positive predictive value) at N and recall (sensitivity) at N.

N を大きくしていくと実際に発行されたオーダはほとんどモデルが予測するオーダの中にあるだろう。すると、表1において p は r に比べて大きくなるので適合率は1に近づく。一方、N を大きくしていくとモデルが予測するオーダにあって実際に発行されないオーダの数も増えるだろうから q は p に比べて大きくなり、精度は0へ近づく。

一方、N を小さくしていくと実際に発行されたオーダのうちモデルが予測したオーダの数は減るので r に比べて p は小さくなり、適合率は小さくなる。その反面、N 自体が小さくなるのでモデルが予測するオーダのトップ N は実際に発行される確率が高くなり、p は q に比べて相対的に大きくなり、その結果精度が大きくなる。

そのため図2のようになると考えられる。

図2．ROC曲線

【モデル選択】

モデル選択、すなわちトピック数Kの決定はAUCのトピック数依存性（図3）をプロットして決定している。

図3．AUCのトピック数依存性

これは、最も「正しい」オーダセットを予測するトピック数を最適なトピック数とみなす考え方である。確かに現実を最も忠実に再現するモデルが良いモデルに違いないのでこの考え方は合理的である。

【読後感】

非常にシンプルなLDAの医療への適用例である。特徴はトピック数Kの決定法とモデルの評価法にある。モデルが実際に発行されたオーダをどのくらい忠実に再現（予測）しているかによってモデルのパラメタであるトピック数を決定している。これはPerplexityによるトピック数決定の手法やheld-outデータによる尤度最大基準による方法と等価である。
モデルの評価に人手で作成した既存のオーダセットを外部基準として用いている。

果たして既存のオーダセットはモデル評価のための外部基準となりえるのだろうか
オーダセットには様々な種類があると思われるが、それを無視して単にP(Item_i|Patient_k)だけでオーダを予測していいのだろうか
「正しい」オーダセットや既存のオーダセットにはオーダの「発行順序」という概念があるが、トピックモデルによるオーダセットにはない。あるのはその患者に対してそのオーダがどの程度発行され易いかという確率だけである。しかるに精度や適合率を計算するのにオーダの出現準を暗黙に仮定しているが、これはよいのだろうか

といった疑問が残った。

Jonathan H Chen, Mary K Goldstein, Steven M Asch, Lester Mackey, Russ B Altman: Predicting inpatient clinical order patterns with probabilistic topic models vs conventional order sets. Journal of the American Medical Informatics Association, 24(3), 472-480, 2017.

機械学習の小部屋

医療分野でトピックモデルを利用した研究（その３）

[7]Predicting inpatient clinical order patterns with probabilistic topic models vs conventional order sets

【論文概要】

【モデル選択】

【読後感】

0 件のコメント:

コメントを投稿

ChatGPT は、米国の医師免許試験に太刀打ちできるか？

不正行為を報告