Entonces, ¿qué son los métodos de Monte Carlo de cadenas de Markov (MCMC)? La respuesta corta es:

Los métodos MCMC se utilizan para aproximar la distribución posterior de un parámetro de interés mediante el muestreo aleatorio en un espacio probabilístico.

En este artículo, voy a explicar esa respuesta corta, sin ninguna matemática.

Primero, algo de terminología. Un parámetro de interés es simplemente algún número que resume un fenómeno en el que estamos interesados. En general, utilizamos la estadística para estimar los parámetros. Por ejemplo, si queremos conocer la altura de los adultos humanos, nuestro parámetro de interés podría ser la altura media en pulgadas. Una distribución es una representación matemática de todos los valores posibles de nuestro parámetro y la probabilidad de observar cada uno de ellos. El ejemplo más famoso es una curva de campana:

Cortesía M. W. Toews

En la forma bayesiana de hacer estadística, las distribuciones tienen una interpretación adicional. En lugar de representar simplemente los valores de un parámetro y la probabilidad de que cada uno sea el valor verdadero, un bayesiano piensa en una distribución como una descripción de nuestras creencias sobre un parámetro. Por lo tanto, la curva de campana anterior muestra que estamos bastante seguros de que el valor del parámetro está bastante cerca de cero, pero creemos que hay una probabilidad igual de que el valor verdadero esté por encima o por debajo de ese valor, hasta cierto punto.

Como sucede, las alturas humanas siguen una curva normal, así que digamos que creemos que el verdadero valor de la altura humana media sigue una curva de campana como esta:

Está claro que la persona con creencias representadas por este gráfico lleva años viviendo entre gigantes, porque por lo que sabe, lo más probable es que la altura media de los adultos sea de 1,90 metros (pero no está súper segura de ello).

Imaginemos que esta persona fue a recolectar algunos datos, y observó un rango de personas entre 5′ y 6′. Podemos representar esos datos a continuación, junto con otra curva normal que muestra qué valores de la altura humana media explican mejor los datos:

En la estadística bayesiana, la distribución que representa nuestras creencias sobre un parámetro se llama distribución a priori, porque captura nuestras creencias antes de ver cualquier dato. La distribución de probabilidad resume lo que nos dicen los datos observados, representando un rango de valores del parámetro acompañado de la probabilidad de que cada parámetro explique los datos que estamos observando. Estimar el valor del parámetro que maximiza la distribución de probabilidad no es más que responder a la pregunta: ¿qué valor del parámetro haría más probable observar los datos que hemos observado? En ausencia de creencias previas, podríamos detenernos ahí.

La clave del análisis bayesiano, sin embargo, es combinar las distribuciones a priori y de verosimilitud para determinar la distribución posterior. Esto nos dice qué valores de los parámetros maximizan la probabilidad de observar los datos particulares que hicimos, teniendo en cuenta nuestras creencias previas. En nuestro caso, la distribución posterior tiene este aspecto:

Encima, la línea roja representa la distribución posterior. Puedes pensar en ella como una especie de media de las distribuciones a priori y de probabilidad. Dado que la distribución a priori es más corta y está más extendida, representa un conjunto de creencias que está «menos seguro» sobre el verdadero valor de la altura humana media. Mientras tanto, la probabilidad resume los datos dentro de un rango relativamente estrecho, por lo que representa una conjetura ‘más segura’ sobre el verdadero valor del parámetro.

Cuando se combinan las distribuciones a priori y la probabilidad, los datos (representados por la probabilidad) dominan las débiles creencias a priori del individuo hipotético que ha crecido entre gigantes. Aunque ese individuo sigue creyendo que la estatura humana media es ligeramente superior a lo que le dicen los datos, está convencido sobre todo por los datos.

En el caso de dos curvas de campana, resolver la distribución posterior es muy fácil. Hay una ecuación sencilla para combinar las dos. Pero, ¿y si nuestras distribuciones a priori y de probabilidad no se comportaran tan bien? A veces es más preciso modelar nuestros datos o nuestras creencias previas utilizando distribuciones que no tienen formas convenientes. ¿Qué pasaría si nuestra probabilidad estuviera mejor representada por una distribución con dos picos, y por alguna razón quisiéramos tener en cuenta alguna distribución previa realmente extraña? He visualizado ese escenario a continuación, dibujando a mano una fea distribución a priori:

Visualizaciones renderizadas en Matplotlib, mejoradas con MS Paint

Como antes, existe alguna distribución posterior que da la probabilidad para cada valor del parámetro. Pero es un poco difícil de ver cómo podría ser, y es imposible de resolver analíticamente. Introduzca los métodos MCMC.

Los métodos MCMC nos permiten estimar la forma de una distribución posterior en caso de que no podamos calcularla directamente. Recordemos que MCMC son las siglas de Markov chain Monte Carlo methods. Para entender cómo funcionan, voy a introducir primero las simulaciones de Monte Carlo y luego hablaré de las cadenas de Markov.

Deja una respuesta

Tu dirección de correo electrónico no será publicada.