Nulla matematikai bevezetés a Markov-lánc Monte Carlo módszerekbe

Mi is az a Markov-lánc Monte Carlo (MCMC) módszer? A rövid válasz a következő:

A CMMC-módszereket arra használják, hogy egy valószínűségi térben véletlenszerű mintavételezéssel közelítsék egy érdekes paraméter utólagos eloszlását.

Ezzel a cikkel ezt a rövid választ fogom elmagyarázni, mindenféle matematika nélkül.

Először is, néhány terminus. Az érdekes paraméter nem más, mint valamilyen szám, amely összefoglalja a minket érdeklő jelenséget. Általában statisztikát használunk a paraméterek becslésére. Például, ha az emberi felnőttek magasságáról szeretnénk megtudni valamit, akkor az érdeklődésünkre számot tartó paraméter lehet az átlagos magasság centiméterben kifejezve. Az eloszlás egy matematikai ábrázolása a paraméterünk minden lehetséges értékének, és annak, hogy milyen valószínűséggel figyelhetjük meg az egyes értékeket. A leghíresebb példa a haranggörbe:

A Bayes-féle statisztikában az eloszlásoknak van egy további értelmezése. Ahelyett, hogy csak egy paraméter értékeit ábrázolná, és azt, hogy az egyes értékek milyen valószínűséggel lehetnek az igaz értékek, a bayesiánus úgy gondolkodik az eloszlásról, mint ami leírja a paraméterrel kapcsolatos meggyőződéseinket. Ezért a fenti haranggörbe azt mutatja, hogy eléggé biztosak vagyunk benne, hogy a paraméter értéke elég közel van a nullához, de úgy gondoljuk, hogy egy bizonyos pontig ugyanolyan valószínűséggel lehet a valódi érték e fölött vagy alatt.

Az emberi magasságok történetesen egy normálgörbét követnek, tehát tegyük fel, hogy úgy gondoljuk, hogy az átlagos emberi magasság valódi értéke egy ilyen haranggörbét követ:

Láthatóan az a személy, akinek a hitét ez a grafikon képviseli, évek óta óriások között él, mert amennyire ő tudja, a legvalószínűbb átlagos felnőtt magasság 6’2″ (de nem szuper biztos benne, hogy így vagy úgy).

Tegyük fel, hogy ez a személy elment és összegyűjtött néhány adatot, és megfigyelt egy 5′ és 6′ közötti tartományt. Ezt az adatot az alábbiakban ábrázolhatjuk egy másik normálgörbével együtt, amely megmutatja, hogy az átlagos emberi magasság mely értékei magyarázzák legjobban az adatokat:

A bayesi statisztikában a valamely paraméterrel kapcsolatos meggyőződésünket reprezentáló eloszlást előzetes eloszlásnak nevezzük, mert ez rögzíti a meggyőződésünket, mielőtt bármilyen adatot látnánk. A valószínűségi eloszlás összefoglalja, hogy a megfigyelt adatok miről árulkodnak számunkra, azáltal, hogy a paraméterértékek tartományát ábrázolja annak valószínűségével együtt, hogy minden egyes paraméter megmagyarázza a megfigyelt adatokat. A valószínűségi eloszlást maximalizáló paraméterérték becslése nem más, mint a kérdés megválaszolása: milyen paraméterérték esetén lenne a legvalószínűbb az általunk megfigyelt adatok megfigyelése? Előzetes hiedelmek hiányában megállhatnánk itt.

A Bayes-elemzés kulcsa azonban az előzetes és a valószínűségi eloszlások kombinálása az utólagos eloszlás meghatározásához. Ez megmondja, hogy az előzetes meggyőződéseinket figyelembe véve mely paraméterértékek maximalizálják az adott adatok megfigyelésének esélyét. Esetünkben az utólagos eloszlás így néz ki:

Fentebb a piros vonal jelöli az utólagos eloszlást. Ezt úgy is felfoghatjuk, mint a prior és a likelihood eloszlások egyfajta átlagát. Mivel az előzetes eloszlás rövidebb és jobban eloszlik, olyan hiedelemkészletet képvisel, amely “kevésbé biztos” az átlagos emberi magasság valódi értékében. Eközben a valószínűség egy viszonylag szűk tartományon belül összegzi az adatokat, így egy “biztosabb” becslést képvisel a valódi paraméterértékről.

Ha a prior és a valószínűség kombinálódik, az adatok (amelyeket a valószínűség képvisel) dominálnak az óriások között felnövő hipotetikus egyén gyenge előzetes hiedelmei felett. Bár ez az egyén még mindig azt hiszi, hogy az átlagos emberi magasság valamivel magasabb, mint amit az adatok éppen mondanak neki, az adatok többnyire meggyőzik őt.

Két haranggörbe esetén az utólagos eloszlás megoldása nagyon egyszerű. Van egy egyszerű egyenlet a kettő kombinálására. De mi van akkor, ha a prior és likelihood eloszlásaink nem ilyen jól viselkednek? Néha az a legpontosabb, ha adatainkat vagy előzetes hiedelmeinket olyan eloszlásokkal modellezzük, amelyeknek nincs kényelmes alakjuk. Mi van akkor, ha a valószínűségünket egy két csúccsal rendelkező eloszlás reprezentálná a legjobban, és valamilyen oknál fogva valami nagyon furcsa előzetes eloszlást akarnánk figyelembe venni? Az alábbiakban ezt a forgatókönyvet vizualizáltam, kézzel rajzolva egy ronda prior eloszlást:

Vizualizáció Matplotlib-ben renderelve, MS Paint segítségével javítva

Mint korábban, létezik valamilyen poszterior eloszlás, amely minden paraméterértékre megadja a valószínűséget. De egy kicsit nehéz megnézni, hogy ez hogyan nézhet ki, és lehetetlen analitikusan megoldani. Lépjünk be az MCMC-módszerekbe.

Az MCMC-módszerek lehetővé teszik számunkra, hogy megbecsüljük az utólagos eloszlás alakját abban az esetben, ha azt nem tudjuk közvetlenül kiszámítani. Emlékezzünk vissza, hogy az MCMC a Markov lánc Monte Carlo módszerek rövidítése. Ahhoz, hogy megértsük a működésüket, először a Monte Carlo szimulációkat fogom bemutatni, majd a Markov-láncokat fogom tárgyalni.

Vélemény, hozzászólás? Kilépés a válaszból