Cos’è il metodo Markov Chain Monte Carlo (MCMC)? La risposta breve è:

I metodi MCMC sono usati per approssimare la distribuzione posteriore di un parametro di interesse attraverso un campionamento casuale in uno spazio probabilistico.

In questo articolo, spiegherò questa risposta breve, senza alcuna matematica.

Primo, un po’ di terminologia. Un parametro di interesse è solo un numero che riassume un fenomeno che ci interessa. In generale usiamo la statistica per stimare i parametri. Per esempio, se vogliamo conoscere l’altezza degli adulti umani, il nostro parametro di interesse potrebbe essere l’altezza media in pollici. Una distribuzione è una rappresentazione matematica di ogni possibile valore del nostro parametro e la probabilità di osservare ciascuno di essi. L’esempio più famoso è una curva a campana:

Courtesy M. W. Toews

Nel modo bayesiano di fare statistica, le distribuzioni hanno un’ulteriore interpretazione. Invece di rappresentare semplicemente i valori di un parametro e la probabilità che ognuno di essi sia il valore vero, un bayesiano pensa a una distribuzione come a una descrizione delle nostre credenze su un parametro. Quindi, la curva a campana qui sopra mostra che siamo abbastanza sicuri che il valore del parametro sia abbastanza vicino allo zero, ma pensiamo che ci sia un’uguale probabilità che il vero valore sia sopra o sotto quel valore, fino a un certo punto.

Come succede, le altezze umane seguono una curva normale, quindi diciamo che crediamo che il vero valore dell’altezza media umana segua una curva a campana come questa:

E’ chiaro che la persona con convinzioni rappresentate da questo grafico ha vissuto tra i giganti per anni, perché per quanto ne sa, l’altezza media degli adulti più probabile è 6’2″ (ma non è super sicura in un modo o nell’altro).

Immaginiamo che questa persona sia andata a raccogliere dei dati, e che abbia osservato una serie di persone tra 5′ e 6′. Possiamo rappresentare questi dati qui sotto, insieme a un’altra curva normale che mostra quali valori di altezza umana media spiegano meglio i dati:

Nella statistica bayesiana, la distribuzione che rappresenta le nostre credenze su un parametro è chiamata distribuzione di priorità, perché cattura le nostre credenze prima di vedere qualsiasi dato. La distribuzione di verosimiglianza riassume ciò che i dati osservati ci dicono, rappresentando una gamma di valori di parametri accompagnati dalla probabilità che ogni parametro spieghi i dati che stiamo osservando. Stimare il valore del parametro che massimizza la distribuzione di verosimiglianza è solo rispondere alla domanda: quale valore del parametro renderebbe più probabile l’osservazione dei dati che abbiamo osservato? In assenza di credenze precedenti, potremmo fermarci qui.

La chiave dell’analisi bayesiana, tuttavia, è combinare le distribuzioni precedenti e di verosimiglianza per determinare la distribuzione posteriore. Questo ci dice quali valori dei parametri massimizzano la possibilità di osservare i dati particolari che abbiamo fatto, tenendo conto delle nostre credenze precedenti. Nel nostro caso, la distribuzione posteriore appare così:

Sopra, la linea rossa rappresenta la distribuzione posteriore. Si può pensare ad essa come una sorta di media delle distribuzioni a priori e di verosimiglianza. Poiché la distribuzione a priori è più corta e diffusa, rappresenta un insieme di credenze che sono ‘meno sicure’ sul vero valore dell’altezza umana media. Nel frattempo, la verosimiglianza riassume i dati all’interno di un intervallo relativamente stretto, quindi rappresenta un’ipotesi “più sicura” sul vero valore del parametro.

Quando il priore e la verosimiglianza sono combinati, i dati (rappresentati dalla verosimiglianza) dominano le deboli credenze precedenti dell’ipotetico individuo che è cresciuto tra i giganti. Anche se quell’individuo crede ancora che l’altezza umana media sia leggermente più alta di quello che i dati gli dicono, è per lo più convinto dai dati.

Nel caso di due curve a campana, risolvere la distribuzione posteriore è molto facile. C’è una semplice equazione per combinare le due. Ma cosa succederebbe se le nostre distribuzioni a priori e di verosimiglianza non fossero così ben educate? A volte è più accurato modellare i nostri dati o le nostre credenze precedenti usando distribuzioni che non hanno forme convenienti. E se la nostra verosimiglianza fosse rappresentata al meglio da una distribuzione con due picchi, e per qualche ragione volessimo tenere conto di una distribuzione a priori davvero bizzarra? Ho visualizzato questo scenario qui sotto, disegnando a mano una brutta distribuzione precedente:

Visualizzazioni rese in Matplotlib, migliorate usando MS Paint

Come prima, esiste una qualche distribuzione posteriore che dà la probabilità per ogni valore del parametro. Ma è un po’ difficile vedere come potrebbe essere, ed è impossibile da risolvere analiticamente. Entrano in gioco i metodi MCMC.

I metodi MCMC ci permettono di stimare la forma di una distribuzione posteriore nel caso in cui non possiamo calcolarla direttamente. Ricordiamo che MCMC sta per Markov chain Monte Carlo methods. Per capire come funzionano, introdurrò prima le simulazioni Monte Carlo, poi parlerò delle catene di Markov.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato.