Vad är Markov Chain Monte Carlo-metoder (MCMC)? Det korta svaret är:
MCMC-metoder används för att approximera den efterföljande fördelningen av en intressant parameter genom slumpmässigt urval i ett probabilistiskt utrymme.
I den här artikeln kommer jag att förklara det korta svaret, utan någon matematik.
Först lite terminologi. En intressant parameter är bara något tal som sammanfattar ett fenomen som vi är intresserade av. I allmänhet använder vi statistik för att uppskatta parametrar. Om vi till exempel vill ta reda på hur långa vuxna människor är, kan vår intressanta parameter vara genomsnittlig längd i tum. En fördelning är en matematisk representation av alla möjliga värden för vår parameter och hur sannolikt det är att vi observerar varje värde. Det mest kända exemplet är en klockkurva:
I det Bayesianska sättet att bedriva statistik har fördelningarna ytterligare en tolkning. Istället för att bara representera värdena för en parameter och hur sannolikt det är att vart och ett av dem är det sanna värdet, tänker en bayesiansk metod på en fördelning som en beskrivning av våra uppfattningar om en parameter. Därför visar klockkurvan ovan att vi är ganska säkra på att parameterns värde är ganska nära noll, men vi tror att det är lika troligt att det sanna värdet ligger över eller under det värdet, upp till en viss punkt.
Det är så att människans längd följer en normalkurva, så låt oss säga att vi tror att det sanna värdet av människans genomsnittslängd följer en klockkurva som denna:
Det är uppenbart att den person med övertygelser som representeras av den här grafen har levt bland jättar i åratal, för såvitt de vet är den mest sannolika medelhöjden för en vuxen människa 1,80 meter (men de är inte superäkra på ett eller annat sätt).
Föreställ dig att denna person gick och samlade in lite data, och de observerade en rad människor mellan 1,75 meter och 1,80 meter. Vi kan representera dessa data nedan, tillsammans med en annan normalkurva som visar vilka värden för genomsnittlig mänsklig längd som bäst förklarar data:
I Bayesiansk statistik kallas den fördelning som representerar våra trosuppfattningar om en parameter för prioritetsfördelningen, eftersom den fångar upp våra trosuppfattningar innan vi ser några data. Sannolikhetsfördelningen sammanfattar vad de observerade data berättar för oss, genom att representera ett intervall av parametervärden tillsammans med sannolikheten för att varje enskild parameter förklarar de data vi observerar. Att uppskatta det parametervärde som maximerar sannolikhetsfördelningen är bara ett svar på frågan: Vilket parametervärde skulle göra det mest sannolikt att observera de data vi har observerat? I avsaknad av tidigare föreställningar skulle vi kanske stanna där.
Nyckeln till Bayesiansk analys är dock att kombinera prioritets- och sannolikhetsfördelningarna för att bestämma den efterföljande fördelningen. Denna talar om för oss vilka parametervärden som maximerar chansen att observera just de data som vi har observerat, med hänsyn till våra tidigare uppfattningar. I vårt fall ser den efterföljande fördelningen ut så här:
Ovanför representerar den röda linjen den efterföljande fördelningen. Du kan se den som ett slags medelvärde av prioritets- och sannolikhetsfördelningen. Eftersom prioritetsfördelningen är kortare och mer utspridd representerar den en uppsättning trosuppfattningar som är ”mindre säkra” på det sanna värdet av mänsklig genomsnittslängd. Samtidigt sammanfattar sannolikheten data inom ett relativt smalt intervall, så den representerar en ”säkrare” gissning om det sanna parametervärdet.
När prior och sannolikhet kombineras dominerar data (representerade av sannolikheten) de svaga prioritetsuppfattningarna hos den hypotetiska individen som hade vuxit upp bland jättar. Även om den individen fortfarande tror att den genomsnittliga människolängden är något högre än just vad uppgifterna talar om för honom, är han mestadels övertygad av uppgifterna.
I fallet med två klockkurvor är det mycket enkelt att lösa den efterföljande fördelningen. Det finns en enkel ekvation för att kombinera de två. Men vad händer om våra prioritets- och sannolikhetsfördelningar inte var så välskötta? Ibland är det mest korrekt att modellera våra data eller våra prioritetsuppfattningar med hjälp av fördelningar som inte har bekväma former. Tänk om vår sannolikhet bäst representeras av en fördelning med två toppar, och vi av någon anledning vill ta hänsyn till en riktigt knasig prioritetsfördelning? Jag har visualiserat det scenariot nedan, genom att för hand rita en ful prioritetsfördelning:
Som tidigare existerar det en viss posteriörfördelning som ger sannolikheten för varje parametervärde. Men det är lite svårt att se hur den kan se ut, och den är omöjlig att lösa analytiskt. Inför MCMC-metoder.
MCMC-metoder gör det möjligt för oss att uppskatta formen på en efterföljande fördelning om vi inte kan beräkna den direkt. Kom ihåg att MCMC står för Markov chain Monte Carlo-metoder. För att förstå hur de fungerar kommer jag först att presentera Monte Carlo-simuleringar och sedan diskutera Markovkedjor.