Co jsou to metody Markovova řetězce Monte Carlo (MCMC)? Stručná odpověď zní:

MMC metody se používají k aproximaci posteriorního rozdělení parametru zájmu pomocí náhodného vzorkování v pravděpodobnostním prostoru.

V tomto článku tuto stručnou odpověď vysvětlím, a to bez jakékoli matematiky.

Nejprve trochu terminologie. Parametr zájmu je prostě nějaké číslo, které shrnuje jev, který nás zajímá. Obecně k odhadu parametrů používáme statistiku. Chceme-li se například dozvědět něco o výšce dospělých lidí, může být naším zájmovým parametrem průměrná výška v palcích. Rozdělení je matematické znázornění všech možných hodnot našeho parametru a toho, s jakou pravděpodobností každou z nich pozorujeme. Nejznámějším příkladem je zvonová křivka:

Courtesy M. W. Toews

V bayesovském způsobu statistiky mají rozdělení další interpretaci. Namísto pouhého znázornění hodnot parametru a toho, s jakou pravděpodobností je každá z nich skutečnou hodnotou, bayesovec uvažuje o rozdělení jako o popisu našich přesvědčení o parametru. Proto výše uvedená zvonová křivka ukazuje, že jsme si docela jistí, že hodnota parametru je docela blízko nule, ale myslíme si, že existuje stejná pravděpodobnost, že skutečná hodnota je nad nebo pod touto hodnotou, a to až do určitého bodu.

Jak už to tak bývá, lidská výška skutečně sleduje normální křivku, takže řekněme, že se domníváme, že skutečná hodnota průměrné lidské výšky sleduje zvonovou křivku takto:

Je jasné, že člověk s přesvědčením reprezentovaným tímto grafem žije už léta mezi obry, protože pokud ví, nejpravděpodobnější průměrná výška dospělého člověka je 6’2″ (ale není si tím tak či onak super jistý).

Představme si, že tato osoba šla a shromáždila nějaká data a pozorovala řadu lidí vysokých od 5 do 6 stop. Tato data můžeme znázornit níže spolu s další normální křivkou, která ukazuje, které hodnoty průměrné lidské výšky nejlépe vysvětlují tato data:

V Bayesovské statistice se rozdělení reprezentující naše přesvědčení o parametru nazývá předběžné rozdělení, protože zachycuje naše přesvědčení předtím, než vidíme nějaká data. Pravděpodobnostní rozdělení shrnuje, co nám pozorovaná data říkají, tím, že představuje rozsah hodnot parametrů doprovázený pravděpodobností, že každý jednotlivý parametr vysvětluje pozorovaná data. Odhad hodnoty parametru, který maximalizuje pravděpodobnostní rozdělení, je pouze odpovědí na otázku: Jaká hodnota parametru by s největší pravděpodobností vysvětlovala námi pozorovaná data? Při absenci apriorních přesvědčení bychom se u toho mohli zastavit.

Klíčem k bayesovské analýze je však kombinace apriorního a pravděpodobnostního rozdělení pro určení posteriorního rozdělení. To nám říká, které hodnoty parametrů maximalizují šanci, že jsme pozorovali konkrétní data, která jsme pozorovali, s ohledem na naše předchozí přesvědčení. V našem případě vypadá posteriorní rozdělení takto:

Výše uvedená červená čára představuje posteriorní rozdělení. Můžete si ji představit jako jakýsi průměr apriorního a pravděpodobnostního rozdělení. Protože prioritní rozdělení je kratší a rozprostřenější, představuje soubor přesvědčení, který si je „méně jistý“ skutečnou hodnotou průměrné lidské výšky. Zatímco pravděpodobnost shrnuje data v relativně úzkém rozmezí, takže představuje „jistější“ odhad skutečné hodnoty parametru.

Pokud se apriorní rozdělení pravděpodobnosti zkombinuje, data (reprezentovaná pravděpodobností) převáží nad slabými apriorními přesvědčeními hypotetického jedince, který vyrostl mezi obry. Přestože tento jedinec stále věří, že průměrná lidská výška je o něco vyšší, než mu právě říkají data, je většinou přesvědčen daty.

V případě dvou zvonových křivek je řešení posteriorního rozdělení velmi snadné. Existuje jednoduchá rovnice pro kombinaci obou křivek. Ale co když naše prioritní a pravděpodobnostní rozdělení nejsou tak dobře zvládnutá? Někdy je nejpřesnější modelovat naše data nebo naše apriorní přesvědčení pomocí rozdělení, která nemají vhodný tvar. Co kdyby naši pravděpodobnost nejlépe reprezentovalo rozdělení se dvěma vrcholy a my bychom z nějakého důvodu chtěli zohlednit nějaké opravdu šílené rozdělení priorit? Níže jsem tento scénář vizualizoval tak, že jsem ručně nakreslil ošklivé apriorní rozdělení:

Vizualizace vykreslená v Matplotlibu, vylepšená pomocí MS Paint

Jako dříve, existuje nějaké posteriorní rozdělení, které udává pravděpodobnost pro každou hodnotu parametru. Je však trochu obtížné vidět, jak by mohla vypadat, a nelze ji řešit analyticky. Nastupují metody MCMC.

Metody MCMC nám umožňují odhadnout tvar posteriorního rozdělení v případě, že jej nemůžeme vypočítat přímo. Připomeňme, že MCMC je zkratka pro metody Markovova řetězce Monte Carlo. Abychom pochopili, jak fungují, představím nejprve simulace Monte Carlo a poté proberu Markovovy řetězce.

.

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna.