[9]Mining fda drug labels using an unsupervised learning technique
論文概要
医薬品添付文書(FDA-approved drug labels)にLDAを適用して医薬品の安全性や効能の観点からグルーピングを行ったという論文。
医薬品添付文書が解析対象のドキュメント。ただし、そのまま使うのではなくMedDRAを使って標準的なADR用語に変換している。そして安全性や効能のパターンをLDAを用いてトピックとして抽出するというシナリオ。
モデル選択
トピック数は天下り的に100としている。根拠は示されていない。
評価方法
トピックを構成する医薬品に安全性と薬効の観点から共通性があるかどうかで評価を行っている。安全性については添付文書に囲み警告文書(BW: Boxed Warning)があるものがどの程度あるか、効能については解剖治療化学分類法(ATC: Anatomical Therapeutic Chemical Classification System)で分類される医薬品がどの程度あるか調べて、それらが7割以上あれば有効であるとしている。
読後感
評価方法が理解しづらかった。
医薬品にトピックを対応させる際、その医薬品のトピック含有率が最大のトピックを割り当てている。つまりこの段階で他のトピックの役割を切り捨てている。
次に、こうして各医薬品に割り当てられたトピックのうち、少なくとも10以上の医薬品を持つトピックのみ残して他は解析対象から除外した。
これは意味のある統計解析とバイアスを取り除くためと述べている。
Bisgin H, Liu Z, Fang H, Xu X, Tong W. Mining FDA drug labels using an unsupervised learning technique--topic modeling. BMC Bioinformatics. 2011;12 Suppl 10(Suppl 10):S11. Published 2011 Oct 18. doi:10.1186/1471-2105-12-S10-S11
0 件のコメント:
コメントを投稿