Sådan, hvad er Markov Chain Monte Carlo-metoder (MCMC)? Det korte svar er:

MCMC-metoder bruges til at tilnærme sig den efterfølgende fordeling af en parameter af interesse ved hjælp af tilfældig prøveudtagning i et probabilistisk rum.

I denne artikel vil jeg forklare det korte svar, uden nogen matematik.

Først noget terminologi. En parameter af interesse er bare et eller andet tal, der opsummerer et fænomen, som vi er interesseret i. Generelt bruger vi statistik til at estimere parametre. Hvis vi f.eks. ønsker at vide noget om højden hos voksne mennesker, kan vores parameter af interesse være gennemsnitshøjden i tommer. En fordeling er en matematisk repræsentation af alle mulige værdier af vores parameter, og hvor sandsynligt det er, at vi observerer hver enkelt af dem. Det mest berømte eksempel er en klokkekurve:

Courtesy M. W. Toews

I den Bayesianske måde at lave statistik på, har fordelinger en yderligere fortolkning. I stedet for blot at repræsentere værdierne af en parameter og hvor sandsynligt det er, at hver enkelt af dem er den sande værdi, tænker en bayesianer på en fordeling som en beskrivelse af vores overbevisninger om en parameter. Derfor viser klokkekurven ovenfor, at vi er ret sikre på, at værdien af parameteren er ret tæt på nul, men vi mener, at der er lige stor sandsynlighed for, at den sande værdi ligger over eller under denne værdi, op til et vist punkt.

Som det er tilfældet, følger menneskers højde en normal kurve, så lad os sige, at vi tror, at den sande værdi af menneskers gennemsnitlige højde følger en klokkekurve som denne:

Det er klart, at den person med overbevisninger, som denne graf repræsenterer, har levet blandt giganter i årevis, for så vidt de ved, er den mest sandsynlige gennemsnitlige voksenhøjde 6’2″ (men de er ikke super sikre på den ene eller anden måde).

Lad os forestille os, at denne person gik ud og indsamlede nogle data, og at de observerede en række mennesker mellem 1,75 meter og 1,80 meter. Vi kan repræsentere disse data nedenfor sammen med en anden normalkurve, der viser, hvilke værdier af menneskets gennemsnitlige højde der bedst forklarer dataene:

I Bayesiansk statistik kaldes den fordeling, der repræsenterer vores overbevisninger om en parameter, for prioritetsfordelingen, fordi den indfanger vores overbevisninger, før vi ser nogen data. Sandsynlighedsfordelingen opsummerer, hvad de observerede data fortæller os, ved at repræsentere et interval af parameterværdier ledsaget af sandsynligheden for, at hver enkelt parameter forklarer de data, vi observerer. At estimere den parameterværdi, der maksimerer sandsynlighedsfordelingen, er blot at besvare spørgsmålet: Hvilken parameterværdi ville gøre det mest sandsynligt, at vi observerer de data, vi har observeret? I mangel af forudgående overbevisninger kan vi måske stoppe her.

Nøglen til Bayesiansk analyse er imidlertid at kombinere den forudgående og sandsynlighedsfordelingen for at bestemme den efterfølgende fordeling. Dette fortæller os, hvilke parameterværdier der maksimerer chancen for at observere de bestemte data, som vi gjorde, under hensyntagen til vores forudgående overbevisninger. I vores tilfælde ser den efterfølgende fordeling således ud:

Ovenfor repræsenterer den røde linje den efterfølgende fordeling. Man kan se den som en slags gennemsnit af prior- og sandsynlighedsfordelingerne. Da priorfordelingen er kortere og mere spredt, repræsenterer den et sæt af overbevisninger, der er “mindre sikre” på den sande værdi af den gennemsnitlige menneskelige højde. I mellemtiden opsummerer sandsynligheden dataene inden for et relativt snævert interval, så den repræsenterer et ‘mere sikkert’ gæt om den sande parameterværdi.

Når man kombinerer prior- og sandsynlighedsfordelingen, dominerer dataene (repræsenteret af sandsynligheden) de svage prior-overbevisninger hos det hypotetiske individ, der var vokset op blandt giganter. Selv om dette individ stadig mener, at den gennemsnitlige menneskehøjde er lidt højere end netop det, som dataene fortæller ham, er han for det meste overbevist af dataene.

I tilfælde af to klokkekurver er det meget let at løse for den efterfølgende fordeling. Der findes en simpel ligning til at kombinere de to. Men hvad nu, hvis vores prior- og sandsynlighedsfordelinger ikke var så velopdragne? Nogle gange er det mest præcist at modellere vores data eller vores forudgående overbevisninger ved hjælp af fordelinger, som ikke har bekvemme former. Hvad nu hvis vores sandsynlighed var bedst repræsenteret af en fordeling med to to toppe, og vi af en eller anden grund ønskede at tage højde for en virkelig skør prioritetsfordeling? Jeg har visualiseret det scenarie nedenfor ved i hånden at tegne en grim priorfordeling:

Visualiseringer gengivet i Matplotlib, forbedret ved hjælp af MS Paint

Som før eksisterer der en eller anden posteriorfordeling, der giver sandsynligheden for hver parameterværdi. Men det er lidt svært at se, hvordan den kan se ud, og den er umulig at løse analytisk for. Enter MCMC-metoder.

MCMC-metoder giver os mulighed for at estimere formen af en posteriorfordeling, hvis vi ikke kan beregne den direkte. Husk på, at MCMC står for Markov-kæde Monte Carlo-metoder. For at forstå, hvordan de fungerer, vil jeg først introducere Monte Carlo-simuleringer og derefter diskutere Markov-kæder.

Skriv et svar

Din e-mailadresse vil ikke blive publiceret.