Czym więc są metody Markov Chain Monte Carlo (MCMC)? Krótka odpowiedź brzmi:
Metody MCMC służą do aproksymacji rozkładu następczego interesującego nas parametru poprzez losowe próbkowanie w przestrzeni probabilistycznej.
W tym artykule wyjaśnię tę krótką odpowiedź, bez matematyki.
Po pierwsze, trochę terminologii. Parametr zainteresowania to po prostu pewna liczba, która podsumowuje zjawisko, którym jesteśmy zainteresowani. Ogólnie rzecz biorąc, używamy statystyki do szacowania parametrów. Na przykład, jeśli chcemy dowiedzieć się czegoś o wzroście dorosłych ludzi, naszym parametrem zainteresowania może być średni wzrost w calach. Rozkład jest matematyczną reprezentacją każdej możliwej wartości naszego parametru i prawdopodobieństwa zaobserwowania każdej z nich. Najbardziej znanym przykładem jest krzywa dzwonowa:
W Bayesowskim sposobie prowadzenia statystyki rozkłady mają dodatkową interpretację. Zamiast po prostu reprezentować wartości parametru i jak prawdopodobne jest, że każda z nich jest prawdziwą wartością, Bayesian myśli o rozkładzie jako opisującym nasze przekonania na temat parametru. Dlatego krzywa dzwonowa powyżej pokazuje, że jesteśmy całkiem pewni, że wartość parametru jest bliska zeru, ale sądzimy, że istnieje równe prawdopodobieństwo, że prawdziwa wartość jest powyżej lub poniżej tej wartości, aż do pewnego punktu.
Tak się składa, że ludzkie wysokości podążają za krzywą normalną, więc powiedzmy, że wierzymy, że prawdziwa wartość średniej wysokości człowieka podąża za krzywą dzwonową w ten sposób:
Najwyraźniej osoba z przekonaniami reprezentowanymi przez ten wykres żyła wśród olbrzymów przez lata, ponieważ o ile wie, najbardziej prawdopodobny średni wzrost dorosłego człowieka to 6’2″ (ale nie jest super pewna tak czy inaczej).
Wyobraźmy sobie, że ta osoba poszła i zebrała trochę danych, i zaobserwowała zakres ludzi pomiędzy 5′ a 6′. Możemy przedstawić te dane poniżej, wraz z inną krzywą normalną, która pokazuje, które wartości średniego wzrostu człowieka najlepiej wyjaśniają te dane:
W statystyce bayesowskiej rozkład reprezentujący nasze przekonania na temat parametru nazywany jest rozkładem uprzednim, ponieważ odzwierciedla on nasze przekonania przed zobaczeniem jakichkolwiek danych. Rozkład prawdopodobieństwa podsumowuje to, co mówią nam obserwowane dane, poprzez przedstawienie zakresu wartości parametrów wraz z prawdopodobieństwem, że każdy z parametrów wyjaśnia obserwowane dane. Oszacowanie wartości parametru, który maksymalizuje rozkład prawdopodobieństwa jest po prostu odpowiedzią na pytanie: jaka wartość parametru uczyniłaby najbardziej prawdopodobnym zaobserwowanie danych, które zaobserwowaliśmy? W przypadku braku wcześniejszych przekonań, możemy na tym poprzestać.
Kluczem do analizy bayesowskiej jest jednak połączenie rozkładu wcześniejszego i rozkładu prawdopodobieństwa w celu określenia rozkładu potomnego. To mówi nam, które wartości parametrów maksymalizują szansę zaobserwowania konkretnych danych, które uzyskaliśmy, biorąc pod uwagę nasze wcześniejsze przekonania. W naszym przypadku, rozkład potomny wygląda następująco:
Powyżej, czerwona linia reprezentuje rozkład potomny. Można o nim myśleć jako o swego rodzaju średniej z rozkładu wcześniejszego i rozkładu prawdopodobieństwa. Ponieważ rozkład wstępny jest krótszy i bardziej rozłożony, reprezentuje on zbiór przekonań, który jest „mniej pewny” co do prawdziwej wartości średniego wzrostu człowieka. Tymczasem prawdopodobieństwo podsumowuje dane w stosunkowo wąskim zakresie, więc reprezentuje „pewniejsze” przypuszczenie co do prawdziwej wartości parametru.
Gdy priorytety i prawdopodobieństwa są połączone, dane (reprezentowane przez prawdopodobieństwo) zdominowały słabe priorytety przekonań hipotetycznego osobnika, który dorastał wśród olbrzymów. Chociaż osoba ta nadal wierzy, że średnia wysokość człowieka jest nieco wyższa niż to, co mówią jej dane, jest ona w większości przekonana przez dane.
W przypadku dwóch krzywych dzwonowych, rozwiązanie dla rozkładu potomnego jest bardzo łatwe. Istnieje proste równanie do połączenia tych dwóch rozkładów. Ale co by się stało, gdyby rozkłady prawdopodobieństwa i priorytetu nie były tak dobrze zachowane? Czasami najdokładniej jest modelować nasze dane lub nasze wcześniejsze przekonania za pomocą rozkładów, które nie mają wygodnych kształtów. Co by się stało, gdyby nasze prawdopodobieństwo było najlepiej reprezentowane przez rozkład z dwoma wierzchołkami, a my z jakiegoś powodu chcielibyśmy uwzględnić jakiś naprawdę szalony rozkład wcześniejszy? Zwizualizowałem ten scenariusz poniżej, ręcznie rysując brzydki rozkład predyktywny:
Jak poprzednio, istnieje pewien rozkład potomny, który daje prawdopodobieństwo dla każdej wartości parametru. Ale trochę trudno jest zobaczyć, jak to może wyglądać, i nie da się tego rozwiązać analitycznie. Wprowadzamy metody MCMC.
Metody MCMC pozwalają nam oszacować kształt rozkładu potomnego w przypadku, gdy nie możemy go obliczyć bezpośrednio. Przypomnijmy, że MCMC to skrót od Markov chain Monte Carlo methods. Aby zrozumieć, jak one działają, wprowadzę najpierw symulacje Monte Carlo, a następnie omówię łańcuchy Markowa.
.