Mitä ovat Markov Chain Monte Carlo (MCMC) -menetelmät? Lyhyt vastaus on:
MCMC-menetelmiä käytetään kiinnostavan parametrin posteriorisen jakauman approksimointiin satunnaisotannalla todennäköisyysavaruudesta.
Tässä artikkelissa selitän tuon lyhyen vastauksen ilman matematiikkaa.
Aluksi hieman terminologiaa. Kiinnostava parametri on vain jokin luku, joka tiivistää ilmiön, josta olemme kiinnostuneita. Yleensä käytämme tilastoja parametrien estimointiin. Jos esimerkiksi haluamme saada tietoa aikuisten ihmisten pituudesta, kiinnostava parametrimme voisi olla keskipituus tuumina. Jakauma on matemaattinen esitys parametrimme kaikista mahdollisista arvoista ja siitä, kuinka todennäköisesti havaitsemme kunkin arvon. Tunnetuin esimerkki on kellokäyrä:
Bayesiläisessä tavassa harjoittaa tilastotieteen tekemistä jakaumilla on yksi lisätulkinta. Sen sijaan, että jakauma edustaisi vain parametrin arvoja ja sitä, kuinka todennäköisesti kukin niistä on tosiarvo, bayesiläinen ajattelee jakauman kuvaavan uskomuksiamme parametrista. Näin ollen yllä oleva kellokäyrä osoittaa, että olemme melko varmoja siitä, että parametrin arvo on melko lähellä nollaa, mutta uskomme, että on yhtä todennäköistä, että todellinen arvo on tietyn pisteen verran tämän arvon ylä- tai alapuolella.
Sattumoisin ihmisten pituudet noudattavat normaalikäyrää, joten sanotaan, että uskomme ihmisen keskipituuden todellisen arvon noudattavan tällaista kellokäyrää:
Yksiselitteisesti henkilö, jonka uskomuksia tämä kuvaaja edustaa, on elänyt jättiläisten keskellä vuosikausia, koska hänen tietojensa mukaan todennäköisin aikuisten keskipituus on 1,90 m (mutta hän ei ole supervarma suuntaan tai toiseen).
Kuvitellaanpa, että tämä henkilö meni keräämään dataa, ja hän havainnoi ihmisiä, joiden pituus vaihteli 1,5′ ja 2,5′ välillä. Voimme esittää tuon datan alla yhdessä toisen normaalikäyrän kanssa, joka osoittaa, mitkä ihmisen keskimääräisen pituuden arvot selittävät datan parhaiten:
Bayesilaisessa tilastotieteessä jakaumaa, joka edustaa uskomuksiamme jostakin parametrista, kutsutaan ennakkojakaumaksi, koska se kuvaa uskomuksiamme ennen datan näkemistä. Todennäköisyysjakauma tiivistää sen, mitä havaitut tiedot kertovat meille, esittämällä parametrin arvojen vaihteluvälin ja sen todennäköisyyden, että kukin parametri selittää havaitsemamme tiedot. Arvioimalla parametrin arvoa, joka maksimoi todennäköisyysjakauman, vastataan vain kysymykseen: Minkä parametrin arvon avulla on todennäköisintä havaita havaitsemamme tiedot? Ennakko-oletusten puuttuessa saattaisimme pysähtyä tähän.
Bayesin analyysin avain on kuitenkin ennakko- ja todennäköisyysjakaumien yhdistäminen posteriorijakauman määrittämiseksi. Tämä kertoo meille, mitkä parametrien arvot maksimoivat todennäköisyyden havaita juuri ne tiedot, jotka havaitsimme, ottaen huomioon ennakko-uskomuksemme. Tapauksessamme posteriorijakauma näyttää tältä:
Kuten aiemminkin, on olemassa jokin posteriorijakauma, joka antaa todennäköisyyden kullekin parametriarvolle. Mutta on hieman vaikea nähdä, miltä se voisi näyttää, ja sitä on mahdotonta ratkaista analyyttisesti. Esiin astuvat MCMC-menetelmät.
MCMC-menetelmien avulla voimme arvioida posteriorijakauman muodon, jos emme voi laskea sitä suoraan. Muistutetaan, että MCMC on lyhenne sanoista Markov chain Monte Carlo methods. Jotta ymmärtäisit, miten ne toimivat, esittelen ensin Monte Carlo -simulaatiot ja keskustelen sitten Markovin ketjuista.