BAYESOVSKÁ INFERENCE

neboli usuzování dle Thomase Bayese

se představuje


Pokud bychom měli bayesovskou inferenci popsat jediným souvětím, znělo by asi takto: "Bayesovská inference (BIN) je nesmírně efektivní (a nejspíš jediný správný!) způsob, jak na základě neúplných informací co nejlépe posoudit určitou situaci, najít nejpravděpodobnější vysvětlení nějakého jevu nebo třeba udělat co nejperspektivnější rozhodnutí."

Ústředním pojmem, který budeme vždy v souvislosti s bayesovskou inferencí skloňovat, je

pravděpodobnost, 

a tak je na místě si o ní něco říci. Co to vlastně je? Různé statistické školy ji vnímají a definují různě. Bayesiáni jsou zastánci toho, že pravděpodobnost je míra naší důvěry v to, že nastane nebo nastal určitý jev, platí určitý stav apod. Tedy například, že nám při dalším hodu kostkou padne šestka, že je to Pepíček, kdo rozbil okno, nebo že v našem vesmíru existují i jiné civilizace. Jak vidíme, v bayesiánské škole tedy pravděpodobnost není pouze nějakou teoretickou matematickou veličinou, je to hodnota vztažená na situace reálného života. Na první místo je kladen člověk jako bytost schopná pravděpodobnost vnímat.

Pravděpodobnost můžeme vyjadřovat různě: v praktickém životě se nejčastěji setkáváme s vyjádřením pomocí procent: 0 % je pravděpodobnost jevu nemožného (to, co nikdy nemůže nastat), 100 % je pravděpodobnost jevu jistého (to, co nastane vždy).

Matematici ve svých výpočtech raději pracují s vyjádřením pravděpodobnosti pomocí pravděpodobnostního koeficientu: P = 0 je pravděpodobnost jevu nemožného, zatímco P = 1 je pravděpodobnost jevu jistého

Pro vyjádření rizik či naopak nadějí používáme ještě jiný způsob: šanci neboli kurzové vyjádření. Pokud proti sobě nastoupí k boji dva stejně úspěšní a stejně výkonní soupeři, jsou obvykle jejich naděje vyrovnané - mluvíme o šanci 1 ku 1. Pokud se ale domníváme, že první je výrazně slabší bojovník než druhý, pak jeho naděje na vítězství jsou třeba pouze 1 ku 3. Znamená to, že na jednu jeho výhru připadnou tři výhry soupeřovy - jinak řečeno, on vyhraje každý čtvrtý souboj a jeho pravděpodobnost výhry je tedy jen 25 % neboli 0,25.

Abychom si mohli základní principy BIN objasnit, musíme se dále seznámit s tzv. 

podmíněnou pravděpodobností. 

Představme si nějaké dva jevy, které spolu souvisejí - statistici říkají, že jsou závislé (přesněji řečeno raději říkají, že nejsou nezávislé). 

Tak třeba: modré oči a blond vlasy

Víme, že nás má navštívit advokátka Bára, kterou jsme nikdy neviděli, a ptáme se: jaká je pravděpodobnost, že Bára má modré oči? Jediným vodítkem nám v takový okamžik může být obecná četnost modrookých v populaci. Dejme tomu, že v ČR jich je cca 40 %. Potom i pravděpodobnost, že zrovna Bára bude modrooká, je přibližně 40 %. Tedy: je o něco pravděpodobnější, že modrooká nebude (60 %), než že bude (40 %). Matematik by to zapsal jako:

Nyní si ale představme, že chvilku před tím, než Bára dorazí, nám volá Karel. Vypadne z něj, že Báru od vidění zná; jaké má oči sice neví, zato ale s jistotou ví, že má krásné dlouhé přírodní blond vlasy. Stále nás zajímá Bářina modrookost, teď už se ale naše otázka změnila: jaká je pravděpodobnost, že Bára má modré oči, pokud víme, že má blond vlasy? To je tzv. podmíněná pravděpodobnost, kterou by matematik zapsal jako:

a četl: pravděpodobnost, že nastal jev M (modrookost) za platnosti podmínky B (blonďatost).

Aniž bychom zatím cokoliv počítali, intuitivně (a správně) tušíme, že pravděpodobnost Bářiny modrookosti se díky informaci o jejích blond vlasech zvýšila, protože modrookost a blonďatost spolu souvisejí - mezi blondýnami je modrookých více než mezi brunetkami či dokonce černovláskami. Matematik by napsal:

Zapátráme tedy v odborné literatuře - a ejhle: vypadne na nás informace, že v ČR je přibližně 30 % blonďáků (a blondýnek), přičemž mezi modrookými jich je dokonce 60 %. Zdá se, že už to máme, ale ouha: když si totiž tyto hodnoty správně označíme matematicky, zjistíme, že jsme se dozvěděli, že:

a že:

Nás ale zajímala P(MIB) - je to to samé, nebo není?!

Není.

To, na co jsme právě narazili, jsou takzvané

inverzní pravděpodobnosti,

u nichž je prohozena podmínka (tedy jev, který už s jistotou nastal) s jevem, jehož pravděpodobnost nás zajímá. Bohužel - až na výjimečnou situaci (popsanou zde) se inverzní pravděpodobnosti navzájem nerovnají a z toho, že mezi modrookými je 60 % blonďáků, nevyplývá, že by mezi blonďáky bylo 60 % modrookých, neboli

Několik názorných příkladů, na kterých lze snadno pochopit, že inverzní pravděpodobnosti se nerovnají, najdete zde.

Co tedy dál? Dál nás dostal Thomas Bayes, když odvodil (jak, to se koukněte zde) svůj

Bayesův teorém

neboli Bayesovu větu neboli vzorec pro úplnou pravděpodobnost, jenž je ústřední myšlenkou, hnacím motorem celé bayesovské inference. V něm vyjádřil, jakým způsobem lze z určité podmíněné pravděpodobnosti spočítat její pravděpodobnost inverzní:

Právě ten teď použijeme při hledání pravděpodobnosti Bářiny modrookosti. Pravděpodobnost, že Bára je modrooká, víme-li, že je blondýnka, můžeme pomocí Bayesova teorému vyjádřit jako:

Všechny hodnoty na pravé straně rovnice už známe, a nic nám tak nebrání konečně hledanou pravděpodobnost spočítat: 

Skvělé! Díky Bayesově teorému tedy víme, že zatímco původní obecná pravděpodobnost, že Bára je modrooká, byla 40 %, nyní, když uvážíme Karlovu informaci, že je s jistotou blondýnka, stoupla tato pravděpobnost na 80 %.

Původní nepodmíněnou pravděpodobnost nazýváme

pravděpodobností apriorní

Říká nám, jak pravděpodobný je nějaký jev ještě předtím, než zvážíme další informace, které máme.

Výslednou podmíněnou pravděpodobnost nazýváme

pravděpodobností aposteriorní

Říká nám, jak pravděpodobný je jev poté, co jsme zvážili další informace, které máme.

Pokud jste dočetli až sem, gratulujeme! - teď už víte, jak funguje Bayesův teorém a co díky němu dokážeme spočítat.