Wat zijn nu eigenlijk Markov chain Monte Carlo (MCMC) methoden? Het korte antwoord luidt:
MC-methoden worden gebruikt om de posterior verdeling van een interessante parameter te benaderen door aselecte steekproeven in een probabilistische ruimte.
In dit artikel zal ik dat korte antwoord uitleggen, zonder enige wiskunde.
Eerst wat terminologie. Een parameter van belang is gewoon een getal dat een verschijnsel samenvat waarin we geïnteresseerd zijn. In het algemeen gebruiken we statistiek om parameters te schatten. Bijvoorbeeld, als we iets willen weten over de lengte van volwassenen, dan is de parameter de gemiddelde lengte in inches. Een verdeling is een wiskundige voorstelling van elke mogelijke waarde van onze parameter en hoe groot de kans is dat we elke waarde waarnemen. Het bekendste voorbeeld is een belcurve:
In de Bayesiaanse manier van statistiek bedrijven, hebben verdelingen een extra interpretatie. In plaats van alleen de waarden van een parameter weer te geven en hoe groot de kans is dat elke waarde de werkelijke waarde is, beschouwt een Bayesiaan een verdeling als een beschrijving van onze overtuigingen over een parameter. Daarom toont de belcurve hierboven dat we vrij zeker zijn dat de waarde van de parameter dicht bij nul ligt, maar we denken dat er een gelijke waarschijnlijkheid is dat de werkelijke waarde boven of onder die waarde ligt, tot op een bepaald punt.
De menselijke lengte volgt inderdaad een normale curve, dus laten we zeggen dat we denken dat de werkelijke waarde van de gemiddelde menselijke lengte een belcurve als deze volgt:
Het is duidelijk dat de persoon met de overtuigingen die deze grafiek weergeeft, al jaren tussen reuzen leeft, want voor zover hij weet, is de meest waarschijnlijke gemiddelde lengte van een volwassene 1,80 m (maar hij is er niet super zeker van hoe dan ook).
Stelt u zich eens voor dat deze persoon gegevens gaat verzamelen en een reeks mensen tussen 1,80 en 1,90 m waarneemt. We kunnen die gegevens hieronder weergeven, samen met een andere normale curve die laat zien welke waarden van de gemiddelde menselijke lengte de gegevens het best verklaren:
In de Bayesiaanse statistiek wordt de verdeling die onze overtuigingen over een parameter weergeeft, de prior verdeling genoemd, omdat deze onze overtuigingen weergeeft voordat we enige gegevens hebben gezien. De waarschijnlijkheidsverdeling vat samen wat de waargenomen gegevens ons vertellen, door een reeks parameterwaarden weer te geven, samen met de waarschijnlijkheid dat elke parameter de gegevens verklaart die we waarnemen. Het schatten van de parameterwaarde die de likelihooddistributie maximaliseert is gewoon het beantwoorden van de vraag: welke parameterwaarde zou het meest waarschijnlijk maken dat we de gegevens waarnemen die we hebben waargenomen? Bij gebrek aan prior beliefs zouden we het hierbij kunnen laten.
De sleutel tot Bayesiaanse analyse is echter het combineren van de prior en de likelihood verdelingen om de posterior verdeling te bepalen. Deze vertelt ons welke parameterwaarden de kans maximaliseren dat we de specifieke gegevens waarnemen die we, rekening houdend met onze prioriteitsovertuigingen, hebben waargenomen. In ons geval ziet de posterior verdeling er als volgt uit:
Hierboven stelt de rode lijn de posterior verdeling voor. U kunt deze zien als een soort gemiddelde van de prior- en de likelihood-verdeling. Aangezien de prioriteitsverdeling korter en meer gespreid is, vertegenwoordigt ze een verzameling overtuigingen die ‘minder zeker’ is over de ware waarde van de gemiddelde menselijke lengte. De waarschijnlijkheid daarentegen vat de gegevens samen binnen een betrekkelijk smal bereik, en vertegenwoordigt dus een ‘zekerder’ gok over de ware parameterwaarde.
Wanneer de prior en de likelihood worden gecombineerd, overheersen de gegevens (vertegenwoordigd door de likelihood) de zwakke prior overtuigingen van het hypothetische individu dat tussen reuzen was opgegroeid. Hoewel dat individu nog steeds gelooft dat de gemiddelde lengte van de mens iets hoger is dan wat de gegevens hem vertellen, is hij toch vooral overtuigd door de gegevens.
In het geval van twee belcurven is het oplossen van de posterior verdeling heel eenvoudig. Er is een eenvoudige vergelijking om de twee te combineren. Maar wat als onze prior en likelihood verdelingen niet zo goed gedragen zijn? Soms is het het meest accuraat om onze gegevens of onze prioriteitsovertuigingen te modelleren met verdelingen die geen handige vormen hebben. Wat als onze waarschijnlijkheid het best wordt voorgesteld door een verdeling met twee pieken, en we om de een of andere reden rekening willen houden met een heel vreemde priorverdeling? Ik heb dat scenario hieronder gevisualiseerd, door met de hand een lelijke prior verdeling te tekenen:
Zoals voorheen, bestaat er een posterior verdeling die de waarschijnlijkheid geeft voor elke parameterwaarde. Maar het is een beetje moeilijk te zien hoe die eruit zou kunnen zien, en het is onmogelijk om die analytisch op te lossen. Daarvoor zijn MCMC-methoden nodig.
MC-methoden stellen ons in staat de vorm van een posterior verdeling te schatten voor het geval we die niet rechtstreeks kunnen berekenen. Onthoud dat MCMC staat voor Markov chain Monte Carlo methods. Om te begrijpen hoe ze werken, zal ik eerst Monte Carlo-simulaties introduceren en daarna Markov-ketens bespreken.