keep learning blog(キープラーニングブログ)

自分が興味を持ったことを備忘録として残すブログです。

25.コロナウイルス検査と確率論について

――ある瞬間における全ての物質の力学的状態と力を知ることができ、かつもしもそれらを解析できるだけの能力を持った知性が存在すれば、この知性の目には未来も過去も全て同じく見えているであろう。――

ピエール・シモン・ラプラス

 

 

コロナウイルス検査と確率論について

現在、世界中でCOVID-19(Coronavirus disease 2019)が猛威を奮っています。欧州各国の多くが都市封鎖(Lock down)の期間延長を決定し、例年ならイースターが行われる4月12日まで外出禁止が命じられています。

私も自宅に待機し、論文を読んだりプログラムを書いたりしながら毎日過ごしています。そんな折、ふと庭先を見ると、窓の外にお腹のふくらんだ猫がやってきたり、小鳥がさえずりながら追いかけ合っていたりと、春の訪れを感じさせる風景が目に留まってほっこりします。

ところで、第一次世界大戦のときに大流行したスペイン風邪(H1N1型インフルエンザ)*1は、発生から終息まで1~2年程度かかり、約3回に分けて大きな爆発的拡大(Epidemic)の波があったそうです。

今回のCOVID-19はインフルエンザとは性質が大きく異なりますし、第一次世界大戦当時とは医療システムも社会構造も異なるので直接比較することはできませんが、いずれにせよそう短くない期間、人類とウイルスとの戦いが継続することが予想されますね。

現在のところ、各国の医療機関が注力しているのは、ポリメラーゼ連鎖反応(PCR:polymerase chain reaction)を利用したDNA増幅検査による感染者の推定、および、その結果に基づく速やかな感染者の隔離(Isolation)と集中治療です。

世界中で感染の爆発的拡大(Epidemic)が起こっている現状では、誰でも当事者になり得ます。風邪程度の症状なら広げないように自宅待機し、肺炎様症状のある方はかかりつけ医や「帰国者・接触者相談センター」に相談し、きちんと指示に従うべきとされています。

今回の記事は、このPCR検査の判定に関して、確率論的な立場から考察してみたいと思います。

f:id:yuki0718:20200328020304j:plain

 

条件付き確率と検査精度

以前の記事で、混合ガウスモデル(Gaussian mixture model)という確率論をベースとした機械学習モデルを紹介した際、条件付き確率という概念が重要だとご説明しました。

keep-learning.hatenablog.jp

詳細については繰り返しになるので省略しますが、ある事象Aが起こったという条件の下で事象Bが起こる確率のことを条件付き確率(Conditional Probability)と呼びます。

なぜここで確率論の話をするのかと言うと、実はPCR検査のような罹患検査では、罹っている人が正しく陽性と判定される確率(感度)と健康な人が正しく陰性と判定される確率(特異度)が100%にならないことが知られているからです。

つまり、罹っているのに陰性と判定される確率(偽陰性)や、本当は健康な人なのに陽性と判定される確率(偽陽性)が、0ではないエラー要素として残ってしまうのです。

村上春樹さん風に言うと、「この世界に完璧な検査なんて存在しない。完璧な絶望が存在しないようにね。」ということです(?)。したがって、検査の信頼性を正しく把握するには確率論の考え方が重要になってきます。

今回のケースでは、事象Aは「検査で陽性反応が出た(以下、「陽性」と表記)」事象とし、事象Bは「コロナウイルスに感染している(以下、「コロナ」と表記)」事象として、条件付き確率の計算をしてみましょう。すなわち、

 P(コロナ \| 陽性) (陽性反応が出たときに本当にコロナに罹っている確率)

を計算してみます。

 

必要な数式

以前の記事でも書いたとおり、条件付き確率の性質から、以下のベイズの定理が成り立ちます。

 \displaystyle P(コロナ \| 陽性)=\frac{P(コロナ) \times P(陽性 \| コロナ)}{P(陽性)}

また、事象の同時確率に対し、ある変数について和をとるような数学的操作を周辺化(Marginalization)と呼ぶのでした。周辺化により、以下の式も成り立ちます。

 \displaystyle P(陽性)=P(陽性 \cap コロナ)+P(陽性 \cap 健康)=P(コロナ) \times P(陽性 \| コロナ)+P(健康) \times P(陽性 \| 健康)

結局、後者の式を前者の式の分母に代入することで、

 \displaystyle P(コロナ \| 陽性)=\frac{P(コロナ) \times P(陽性 \| コロナ)}{P(コロナ) \times P(陽性 \| コロナ)+P(健康) \times P(陽性 \| 健康)}

が成り立つことになります。この式の右辺に値を代入していけば求める条件付き確率が計算できます。

 

計算に必要なデータ

冒頭で紹介したラプラスの言葉は、「ある瞬間における全ての物質の力学的状態と力」というデータに基づいて「未来も過去も同じく」記述できるという決定論的な考え方*2です。換言すれば、データや前提条件がないと物事の推定は難しいということです。

今回は精度の高い結果を導くことが目的ではなく、確率論が身近なコロナウイルス検査にも関係しているということをご紹介するための記事なので、データの正当性は特に議論しません。

というわけで、インフルエンザの簡易検査キットに関する論文「Accuracy of Rapid Influenza Diagnostic Tests(C. Chartrand et.al., 2012, Ann Intern Med. 156(7), pp500-11)」のTable 3を参考に、「感度70%」「特異度98%」くらい(適当)とします。

この値を前節の数式に当てはめるならば、

 P(陽性 \| コロナ)=0.7

 P(陰性 \| 健康)=0.98 \Rightarrow P(陽性 \| 健康)=0.02

ということになります。そして、数式でもう一つ分からない要素が、検査と関係なく日本人が実際にコロナに罹っている確率 P(コロナ) です。 P(健康)  1-P(コロナ) により計算できるので、差し当たって前者が分かれば問題ありません。

 P(コロナ) を推定するうえで信頼できそうなソースとしては、すでに一度エピデミックが起きていて、健康な人も積極的に検査を受けている韓国のデータが使えると思われます*3

以下のウェブサイトによれば、3月27日現在で韓国のPCR検査人数は352410人、うち罹患しているとの確定診断に至った人数は9332人だそうです。

esrikrmkt.maps.arcgis.com

この割合が日本人が実際にコロナに罹っている確率に等しい、と大胆に仮定します(医療システムや社会構造が近いのでそう悪くない近似だと信じます)。すなわち、

 \displaystyle  P(コロナ)=\frac{9332}{352410}=0.0265

 \displaystyle  P(健康)=1-P(コロナ)=1-0.0265=0.9735‬

以上で必要なデータは出そろいました。

 

本当にコロナに罹っている確率

PCR検査陽性と判定されたとき本当にコロナに罹っている確率 P(コロナ \| 陽性) を計算します。といっても、ただ前節のデータを前々節の数式に代入するだけです。

 \displaystyle P(コロナ \| 陽性)=\frac{0.0265 \times 0.7}{0.0265 \times 0.7+0.9735 \times 0.02} \fallingdotseq 0.488 (48.8\%)

なんと、陽性だと判定されたとしても本当にコロナに罹っている確率は50%未満なのです。これは直観的な印象とまるで違いますね。

もちろん、インフルエンザ簡易検査や韓国の確定診断データといった、コロナウイルスや日本とは関係ないデータを流用したのでこの結果に特に意味はありませんが、ここで強調したいのは「確率が導き出す答えは人間の直観と大きく異なる」ということです。

この確率の低さは、特異度98%が高く見えて実はかなり悪い数字であることに起因しています。特異度が99.9%だと仮定すると、 P(コロナ \| 陽性) 95%近くまで上がります。検査の特異度(健康な人を正しく陰性と判定する確率)はそれだけ重要な因子だということです。

 

今回は思い付きで更新した記事なので以上です。PCR検査における「陽性」という言葉はガンの告知と違って不確実性が高いため、感情的にならずに冷静に受け取るといいかもしれません。

そうした冷静かつ客観的に物事を判断するものさしとして、確率という概念を導入した先人たちは本当に賢いですね。いずれにしても、こういうときこそ皆で助け合って、人類はその叡智で必ずこの困難を乗り越えられると信じたいです。

稚文をお読みいただきありがとうございました。

*1:ちなみに、スペイン風邪アメリカ軍の兵士から欧州を中心に感染が広がったと言われています。当時は戦時中だったので、どの国も敵国に兵力が弱っていることを悟られないように感染拡大を隠蔽していました。しかし、第一次世界大戦の非参加国であったスペインではメディアが正直に感染拡大を報道していたため、世界中の人にあたかもスペインで流行が始まったように受け取られ、不名誉にも「スペイン風邪」などという名前を付けられてしまったわけです。

*2:この決定論的な枠組みの中で未来を知る全能の存在のことを通称「ラプラスの悪魔」と呼びます。ラプラスが生きていた頃に主流だった古典力学では、運動方程式が導く因果律によって全ての未来が記述可能だと信じられていましたが、1900年代にマックス・プランクニールス・ボーアを含む多くの物理学者によって量子力学が確立されたことで、物体の位置と運動量が不確定かつ確率的にしか決まらないことが広く知られることとなり、ラプラスの悪魔は完全に否定されることとなりました。

*3:本題とは関係ありませんが、COVID-19の件で各国の危機管理能力が明らかになってしまいました。韓国とドイツは世界に誇る鮮やかな危機対応で被害を最小化したのに対し、日本政府は長いこと沈黙した後に出た結論が「マスク配ります」って何の冗談でしょうか。原発のときと同じで、これまで(オリンピックに)注ぎ込んできたお金への未練が捨てきれなかったんでしょうね。