Archívy autora: Petrik

PravdepodobnosA? podA?a Bayesa

Predstavte si, A?e sa chcete nechaA? otestovaA? na chorobu, ktorA? sa A?asto nevyskytuje (napr. v prA�pade A?ien rakovinu prsnA�ka). VA?skyt v populA?cii u A?ien vo veku 50 – 64 rokov je 0.7%. Viete, A?e prA�stroj na otestovanie (mammograf) vA?m s presnosA?ou 90% povie, A?i rakovinu mA?te ak ju naozaj mA?te ale zA?roveA? s 8% pravdepodobnosA?ou povie, A?e rakovinu mA?te ak ju v skutoA?nosti nemA?te. MA?te 50 – 64 rokov, idete teda na testovanie, a zistA�te, A?e ste pozitA�vny. S akou pravdepodobnosA?ou ale rakovinou naozaj trpA�te?

PrvotnA? tip by mohol znieA?, A?e s pravdepodobnosA?ou 90%, keA?A?e to je spoA?ahlivosA? prA�stroja. AvA?ak nie je to tak jednoduchA�.

PredtA?m neA? zaA?neme

OdzrkadlujA? A?A�sla 90%, 8% a 0.7% pouA?itA� v tomto A?lA?nku realitu? SnaA?ili sme sa tieto A?A�sla zvoliA? podA?a dostupnA?ch A?tatistA�k.

BritskA? inA?titA?t Cancer Research uvA?dza, A?e mammografy detekujA? rakovinu ak ju pacient mA?, s A?speA?nosA?ou v rozmedzA� 83% – 95%. Pre guA?atosA? A?A�sel uvaA?ujeme pre tento A?lA?nok true-positive rate 90%.

Vedci Henderson a kol. v roku 2015 skA?mali dA?ta z 2 207 942 mammografickA?ch vyA?etrenA� a doA?li k zA?veru, A?e miera detekcie rakoviny u zdravA?ch pacientov bola 182 340. A?iA?e, za false-positive rate mA?A?eme zobraA?

    \[\frac{182340}{2207942} \approx 8\%\]

PodA?a dA?t A?tA?die National Health Service Breast Screening Programme miera vA?skytu v populA?ciA� A?ien vo veku 50 – 64 rokov 11 048 prA�pradov na 1 562 532 testovanA?ch, takA?e pre naA?e A?A?ely mA?A?eme rA?taA? pravdepodobnost

    \[\frac{11048}{1562532}\approx 0.7\%\]

.

PoA?A�tanie fazuliek

Ako si problA�m najjednoduchA?ie predstaviA?? Majme na kope 10000 A?udA�. Vieme, A?e 0.7 percenta trpA� rakovinou, A?o je presne 70 A?udA�. Teraz vA?etkA?ch A?udA� poA?leme na testovanie.

  • Spomedzi 70 chorA?ch A?udA� bude 63 A?udA� sprA?vne oznaA?enA?ch ako pozitA�vnych po otestovanA� (true positive), a 7 budA? chybne oznaA?enA?ch ako zdravA?ch (false negative).
  • Spomedzi zvyA?nA?ch 9937 zdravA?ch A?udA� bude 8%, teda 795 nesprA?vne oznaA?enA?ch ako pozitA�vnych (false positive), a 9142 A?udA� bude sprA?ve oznaA?enA?ch ako negatA�vnych (true negative).

Ak vA?m test povedal, A?e ste pozitA�vny, vy samozrejme neviete, A?i naozaj ste. MoA?ete totiA? patriA? do skupiny 63 reA?lne pozitA�vnych A?udA�, alebo 795 faloA?ne pozitA�vnych. To znamenA?, A?e A?anca, A?e ste reA?lne pozitA�vny, je cirka

    \[63 / (63 + 795) \approx 7.3\%\]

.

NA?A? prvotnA? tip teda zlyhal na celej A?iare, pretoA?e realita je takA?, A?e otestovanA� na vzA?cnu chorobu si mA?A?eme byA? len na 7.3% istA�, A?e ju naozaj mA?me.

Ako sa ale k tomuto vA?sledku dopracovaA? abstraktne, bez toho, aby sme museli rieA?iA? konkrA�tne A?A�sla?

Ako nepoA?A�taA? fazuA?ky alebo vA?eobecnA? recept

Pravdepodobnosti

ZaA?nime pomaly. Nakreslime si Vennov diagram znA?zorA?ujA?ci pravdepodobnostnA? priestor, teda vA?etko, A?o sa mA?A?e staA?.

bayes1

Teraz si predstavme, v naA?om jednoduchom svete mA?A?u nastaA? len dva javy:

  1. jav A, napr. zajtra bude prA?aA?, s pravdepodobnosA?ou P(A)
  2. jav B, napr. zajtra si dostanem jednotku v A?kole, s pravdepodobnosA?ou P(B).

Fakt, A?i dostanem v A?kole jednotku alebo nie, nezA?visA� od toho, A?i bude prA?aA?, teda tieto dva javy sA? nezA?vislA�. TakA?e pravdepodobnosA?, A?e bude prA?aA? a zA?roveA? dostanem jednotku P(A\cap B), je sA?A?in, teda P(A)P(B).

PodmienenA? pravdepodobnosA?

Teraz sa spA?tajme, akA? je A?anca P(B|A), A?e dostanem jednotku za predpokladu (jav A), A?e bude prA?aA? (jav B)? Na Vennovom diagrame predpokladA?me, A?e jav A nastal, takA?e si zazoomujeme na kruh P(A).

bayes2

P(B|A) je potom pomer plochyA�pod A aj B, teda P(A \cap B), a pravdepodobnosti, A?e prA?alo P(A). PA�A?eme

    \[P(A|B) = \frac{P(A\cap B)}{P(A)}.\]

To istA� sa vieme spA?taA? aj naopak. AkA? je A?akca, A?e bude prA?aA? za predpokladu, A?e dostanem jednotku?

bayes3

V takomto prA�pade

    \[P(B|A) = \frac{P(B\cap A)}{P(A)}.\]

Vieme, A?e P(A\cap B) = P(B\cap A), takA?e

    \[P(A|B)P(B) = P(B|A)P(A).\]

Toto je veA?kA? vec, ktorA? sa volA? Bayesova veta. Thomas Bayes bol britskA? biskup z 18. storoA?ia, ktorA�ho esej publikovanA? posmrtne navA?dy zmenila pohA?ad na pravdepodobnosA?. Jej vA?znam A?udstvo naplno docenilo aA? o 300 rokov neskA?r s prA�chodom poA?itaA?ov. PreA?o? To uvidA�me A?oskoro.

SpA�A? k chorobe

VrA?A?me sa k prA�kladu s chorobou. Na jeho vyrieA?enie potrebujeme niekoA?ko ingredienciA�. Z manA?alu k prA�stroju odA?A�tame dve A?A�sla 90% (true positive) a 8% (false positive) a podobne potrebujeme sprA?vne oznaA?iA?:

  • ApriA?rna A?anca, A?e mA?me chorobu P(P) (ako pozitA�vny). Potom P(\text{N}) = 1 - P(\text{P}) je A?anca, A?e sme zdravA�.
  • A�anca, A?e sme pozitA�vne testovanA�, za predpokladu sme zdravA�, je P(+|\text{N}) = 8\%.
  • A�anca, A?e sme pozitA�vne testovanA�, za predpokladu sme chorA�, je P(+|\text{P}) = 90\%.
  • A�anca, A?e sme negatA�vne testovanA�, za predpokladu sme zdravA�, je P(-|\text{N}) = 92\%.
  • A�anca, A?e sme negatA�vne testovanA�, za predpokladu sme chorA�, je P(-|\text{P}) = 10\%.

A?o teda chceme zistiA?? PravdepodobnosA?, A?e sme chorA�, ak sme pozitA�vne testovanA� P(\text{P}|+). Z Bayesovej vety:

    \[P(\text{P}|+) = \frac{P(+|\text{P})P(\text{P})}{P(+)}.\]

Na ceste k rieA?eniu nA?m zostA?va prekonaA? poslednA? problA�m — A?o je P(+)? To je celkovA? pravdepodobnosA?, A?e sme pozitA�vne testovanA�. A?o nA?m radA� intuA�cia? Toto A?A�slo je A?anca, sA?A?et pravdepodobnostA�, A?e sme pozitA�vne testovanA� za predpokladu, A?e sme pozitA�vni, a A?e sme pozitA�vne testovanA� za predpokladu, A?e sme negatA�vni. Matematicky:

    \[P(+) = P(+ \cap \text{P}) + P(+ \cap \text{N}) = P(+|\text{P})P(\text{P}) + P(+|\text{N})P(\text{N}).\]

bayes4

TakA?e vA?slednA? (posteriA?rna) pravdepodobnosA? je

    \[P(\text{P}|+) = \frac{P(+|P)P(P)}{P(+|P)P(P) + P(+|N)P(N)}.\]

KrA?sne! Teraz dosaA?me A?A�sla a teA?me sa, A?o novA� sme sa nauA?ili (90% nech je 90/100):

    \[P(\text{P}|+) = \frac{\frac{90}{100} \frac{0.7}{100} }{\frac{90}{100} \frac{0.7}{100} + \frac{8}{100}\frac{99.3}{100}} \approx 7.3\%.\]

Na vyrieA?enie problA�mu teda potrebujeme tri ingrediencie:

  1. ApriA?rna pravdepodobnosA? P(\text{P}) (potom P(\text{N}) = 1 - P(\text{P})),
  2. podmienenA? pravdepodobnosA? P(+|\text{P}) (true positive rate),
  3. podmienenA? pravdepodobnosA? P(+|\text{N}) (false positive rate).

PravdepodobnosA? ako viera

Bayesov prA�stup nA?m ponA?ka novA? pohA?ad na na veci neznA?me. PravdepodobnosA? nie je konA?tantnA?, ale menA� sa v zA?vislosti od naA?ich pozorovanA�. Bayes vymyslel recept, ako prispA?sobovaA? naA?e vnA�manie okolitA�ho sveta v zA?vislosti od javov, ktorA� pozorujeme a zaznamenA?vame.

Ak pozmenA�me zmysel javov A a B, na mieste P(A) a P(B) uvidA�me nieA?o vA?eobecnejA?ie: pravdepodobnosA?, A?e v nieA?o verA�me P(\text{nazor}) a pravdepodobnosA?, A?e nieA?o inA� pozorujeme. P(\text{pozorovanie}).
Potom platA�

    \[P(\text{nazor}|\text{pozorovanie}) = \frac{P(\text{pozorovanie}|\text{nazor}) P(\text{nazor})}{P(\text{pozorovanie})}.\]

TakA?e na zA?klade naA?ich pozorovanA� upravujeme svoj nA?zor. To je presne to, A?o intuitA�vne chceme!

Teraz sa pozrime na aplikA?cie bayesiA?nskej pravdepodobnosti v reA?lnom svete.

ReA?lny prA�klad — terorizmus

AmerickA? celebritnA? A?tatistik (aj takA� existuje) Nate Silver v knihe (link) prezentuje ako prA�klad zo A?ivota snahu posudzovaA? teroristickA� A?iny.

Predsavte si, A?e sa rA?no 11. septembra 2001 zobudA�te a vidA�te, ako v New Yorku do jednej z veA?A� WTO narazilo prvA� lietadlo. NetuA?A�te, A?o sa deje, pretoA?e nemA?te ako vedieA?, A?e iA?lo o teroristickA? A?tok. Ako teda odhadnA?A?, A?e to naozaj je teroristickA? A?tok?

OznaA?me P(\text{T}) pravdepodobnosA? teroristickA?ch A?tokov, pri ktorA?ch sA? unA?A?anA� lietadlA? (a P(\text{N}) = 1-P(\text{T}) A?ancu, A?e nejde o teroristickA? A?tok), a P(\text{n}) vA?eobecnA? pravdepodobnosA? nA?razu lietadla do veA?e nad Manhattanom.

Potom P(\text{n}|\text{T}) sA? vA?etky A?toky, pri ktorA?ch bolo unesenA� a narazenA� lietadlo. Takisto ale existuje P(\text{n}|\text{N}), A?o je A?anca, A?e sa na lietadle nieA?o pokazilo, zablA?dilo nad Manhattan a narazilo do budovy (takA� prA�pady sa v histA?rii udiali aj pred 11. septembrom). Zosumarizujme si to v tabuA?ke:

P(\text{T}) podiel teroristickA?ch A?inov s lietadlami 0.005%
P(\text{n}|\text{T}) podiel teroristickA?ch A?tokov, pri ktorA?ch niekde narazilo lietadlo 100%
P(\text{n}|\text{N}) vA?skyt nA?razov lietadiel z inA?ch dA?vodov ako terorizmus 0.008%

PoA?A�tame P(\text{T}|\text{N}):

    \[P(\text{T}|\text{n}) = \frac{P(\text{n}|\text{T})P(\text{T})}{P(\text{n}|\text{T})P(\text{T}) + P(\text{n}|\text{N})P(\text{N})} = 38\%.\]

Teraz ale vidA�me, A?e do veA?A� narazilo druhA� lietadlo. AkA? je pravdepodobnosA?, A?e iA?lo o teroristickA? A?tok za predpokladu, A?e nA?raz prvA�ho lietadla bol takA?m A?tokom? Jednoducho iterujeme A?alej. VymenA�me posteriA?rnu pravdepodobnosA? P(\text{T}|\text{N}) za priA?rnu

    \[P(\text{T}|\text{n}) \rightarrow P(\text{T})\]

a poA?A�tame novA? posteriA?rnu P(\text{T}|\text{n}). TentokrA?t nA?m vA?jde 99.99%.

PrA�klad na precviA?enie

V krabici mA?me 3 biele (B) a A?tyri A?ierne (C) guliA?ky. Postupne ich vyA?ahujeme.

  • AkA? je pravdepodobnosA? P(\text{B}_2), A?e v poradA� druhA? guliA?ka bude biela? A P(\text{B}_3) A?e tretia guliA?ka bude biela?
  • AkA? je pravdepodobnosA? P(\text{C}_2|\text{C}_3), A?e druhA? guliA?ka je A?ierna za predpokladu, A?e tretia guliA?ka je tieA? A?ierna?

Zdroje:

Henderson, Louise M., a kol. „Increased Risk of Developing Breast Cancer after a False-Positive Screening Mammogram.“ Cancer Epidemiology Biomarkers & Prevention 24.12 (2015): 1882-1889.