Ce sunt metodele Markov Chain Monte Carlo (MCMC)? Răspunsul scurt este:

Metodele MCMC sunt folosite pentru a aproxima distribuția posterioară a unui parametru de interes prin eșantionare aleatorie într-un spațiu probabilistic.

În acest articol, voi explica acest răspuns scurt, fără nicio matematică.

În primul rând, puțină terminologie. Un parametru de interes este doar un număr care sintetizează un fenomen care ne interesează. În general, folosim statisticile pentru a estima parametrii. De exemplu, dacă vrem să aflăm despre înălțimea adulților umani, parametrul nostru de interes ar putea fi înălțimea medie în centimetri. O distribuție este o reprezentare matematică a fiecărei valori posibile a parametrului nostru și a probabilității pe care o avem de a o observa pe fiecare dintre ele. Cel mai cunoscut exemplu este o curbă în clopot:

Curtesy M. W. Toews

În modul bayesian de a face statistică, distribuțiile au o interpretare suplimentară. În loc să reprezinte doar valorile unui parametru și cât de probabil este ca fiecare dintre ele să fie adevărata valoare, un bayesian se gândește la o distribuție ca la o descriere a convingerilor noastre cu privire la un parametru. Prin urmare, curba în clopot de mai sus arată că suntem destul de siguri că valoarea parametrului este destul de aproape de zero, dar credem că există o probabilitate egală ca adevărata valoare să fie peste sau sub această valoare, până la un anumit punct.

Cum se întâmplă, înălțimile umane urmează o curbă normală, deci să spunem că noi credem că adevărata valoare a înălțimii medii umane urmează o curbă în clopot ca aceasta:

Evident, persoana cu convingeri reprezentate de acest grafic trăiește de ani de zile printre giganți, pentru că, din câte știe ea, cea mai probabilă înălțime medie a adulților este de 1,80 m (dar nu este super sigură într-un fel sau altul).

Să ne imaginăm că această persoană s-a dus și a colectat niște date și a observat o gamă de oameni cu înălțimea între 1,70 și 1,80 m. Putem reprezenta acele date mai jos, împreună cu o altă curbă normală care arată ce valori ale înălțimii medii umane explică cel mai bine datele:

În statistica bayesiană, distribuția care reprezintă convingerile noastre despre un parametru se numește distribuție anterioară, deoarece captează convingerile noastre înainte de a vedea orice date. Distribuția de verosimilitate rezumă ceea ce ne spun datele observate, reprezentând o gamă de valori ale parametrilor însoțită de probabilitatea ca fiecare parametru să explice datele pe care le observăm. Estimarea valorii parametrului care maximizează distribuția verosimilității nu face decât să răspundă la întrebarea: ce valoare a parametrului ar face cea mai probabilă observarea datelor pe care le-am observat? În absența unor convingeri anterioare, ne-am putea opri aici.

Cheia analizei bayesiene este însă combinarea distribuției anterioare și a distribuției de verosimilitate pentru a determina distribuția posterioară. Aceasta ne spune ce valori ale parametrilor maximizează șansa de a observa datele particulare pe care le-am observat, ținând cont de convingerile noastre anterioare. În cazul nostru, distribuția posterioară arată astfel:

Deasupra, linia roșie reprezintă distribuția posterioară. Vă puteți gândi la ea ca la un fel de medie a distribuției anterioare și a distribuției de verosimilitate. Deoarece distribuția anterioară este mai scurtă și mai răspândită, aceasta reprezintă un set de credințe care este „mai puțin sigur” în ceea ce privește adevărata valoare a înălțimii medii umane. Între timp, probabilitatea rezumă datele într-un interval relativ îngust, astfel încât reprezintă o presupunere „mai sigură” cu privire la adevărata valoare a parametrului.

Când se combină probabilitatea anterioară și probabilitatea anterioară, datele (reprezentate de probabilitate) domină convingerile anterioare slabe ale individului ipotetic care a crescut printre giganți. Deși acel individ încă mai crede că înălțimea medie a oamenilor este puțin mai mare decât ceea ce îi spun doar datele, el este convins în cea mai mare parte de date.

În cazul a două curbe de clopot, rezolvarea pentru distribuția posterioară este foarte ușoară. Există o ecuație simplă pentru combinarea celor două. Dar ce se întâmplă dacă distribuțiile noastre anterioare și de verosimilitate nu sunt atât de bine comportate? Uneori este cel mai corect să ne modelăm datele sau convingerile noastre anterioare folosind distribuții care nu au forme convenabile. Ce s-ar întâmpla dacă probabilitatea noastră ar fi cel mai bine reprezentată de o distribuție cu două vârfuri și dacă, din anumite motive, am dori să ținem cont de o distribuție anterioară foarte ciudată? Am vizualizat acest scenariu mai jos, desenând de mână o distribuție anterioară urâtă:

Vizualizări redate în Matplotlib, îmbunătățite folosind MS Paint

Ca și înainte, există o anumită distribuție posterioară care oferă probabilitatea pentru fiecare valoare a parametrului. Dar este un pic cam greu de văzut cum ar putea arăta și este imposibil de rezolvat analitic. Intră metodele MCMC.

Metodele MCMC ne permit să estimăm forma unei distribuții posterioare în cazul în care nu o putem calcula direct. Reamintim că MCMC înseamnă metode Markov chain Monte Carlo. Pentru a înțelege cum funcționează acestea, voi introduce mai întâi simulările Monte Carlo, apoi voi discuta despre lanțurile Markov.

.

Lasă un răspuns

Adresa ta de email nu va fi publicată.