Então, quais são os métodos da corrente de Markov Monte Carlo (MCMC)? A resposta curta é:

Os métodos MCMC são usados para aproximar a distribuição posterior de um parâmetro de interesse por amostragem aleatória em um espaço probabilístico.

Neste artigo, explicarei essa resposta curta, sem nenhuma matemática.

Primeiro, alguma terminologia. Um parâmetro de interesse é apenas um número que resume um fenómeno em que estamos interessados. Em geral, usamos estatísticas para estimar parâmetros. Por exemplo, se quisermos aprender sobre a altura dos adultos humanos, nosso parâmetro de interesse pode ser a altura média em polegadas. Uma distribuição é uma representação matemática de todos os valores possíveis do nosso parâmetro e a probabilidade de observarmos cada um deles. O exemplo mais famoso é uma curva do sino:

Cortesia de M. W. Toews

No modo Bayesiano de fazer estatísticas, as distribuições têm uma interpretação adicional. Em vez de apenas representar os valores de um parâmetro e a probabilidade de cada um ser o verdadeiro valor, um Bayesiano pensa em uma distribuição como descrevendo nossas crenças sobre um parâmetro. Portanto, a curva do sino acima mostra que temos certeza que o valor do parâmetro está bem próximo de zero, mas pensamos que há uma probabilidade igual de o valor verdadeiro estar acima ou abaixo desse valor, até certo ponto.

Acontece que as alturas humanas seguem uma curva normal, então digamos que acreditamos que o valor verdadeiro da altura média humana segue uma curva de sino como esta:

Claramente, a pessoa com crenças representadas por este gráfico tem vivido entre gigantes durante anos, porque, tanto quanto sabem, a altura média mais provável dos adultos é de 1,80 m (mas não são super confiantes de uma forma ou de outra).

Vamos imaginar que esta pessoa foi e coletou alguns dados, e observou uma gama de pessoas entre 5′ e 6′. Podemos representar esses dados abaixo, junto com outra curva normal que mostra quais valores de altura média humana explicam melhor os dados:

Nas estatísticas Bayesianas, a distribuição que representa nossas crenças sobre um parâmetro é chamada de distribuição prévia, pois ela captura nossas crenças antes de ver qualquer dado. A distribuição de probabilidade resume o que os dados observados nos dizem, ao representar um intervalo de valores de parâmetro acompanhado da probabilidade de que cada parâmetro explique os dados que estamos observando. Estimar o valor do parâmetro que maximiza a distribuição de verosimilhança é apenas responder à pergunta: que valor de parâmetro faria com que fosse mais provável observar os dados que observamos? Na ausência de crenças prévias, podemos parar por aí.

A chave para a análise Bayesiana, entretanto, é combinar as distribuições anterior e de verosimilhança para determinar a distribuição posterior. Isto nos diz quais valores de parâmetros maximizam a chance de observarmos os dados particulares que observamos, levando em conta nossas crenças prévias. No nosso caso, a distribuição posterior é assim:

Acima, a linha vermelha representa a distribuição posterior. Você pode pensar nisso como uma espécie de média das distribuições anteriores e das distribuições de probabilidade. Como a distribuição anterior é mais curta e mais espalhada, ela representa um conjunto de crenças que é ‘menos certo’ sobre o valor real da altura humana média. Enquanto isso, a probabilidade resume os dados dentro de um intervalo relativamente estreito, então representa um palpite ‘mais certo’ sobre o valor verdadeiro do parâmetro.

Quando o a priori a probabilidade é combinada, os dados (representados pela probabilidade) dominam as crenças anteriores fracas do indivíduo hipotético que cresceu entre os gigantes. Embora esse indivíduo ainda acredite que a altura média humana é ligeiramente maior do que apenas o que os dados lhe dizem, ele está mais convencido pelos dados.

No caso de duas curvas de sino, a resolução para a distribuição posterior é muito fácil. Há uma equação simples para combinar as duas. Mas e se as nossas distribuições anteriores e prováveis não fossem tão bem comportadas? Às vezes é mais preciso modelar nossos dados ou nossas crenças prévias usando distribuições que não têm formas convenientes. E se a nossa probabilidade fosse melhor representada por uma distribuição com dois picos, e por alguma razão quiséssemos contabilizar alguma distribuição anterior realmente maluca? Eu visualizei esse cenário abaixo, desenhando manualmente uma distribuição prévia feia:

Visualizações feitas em Matplotlib, realçadas usando MS Paint

Como antes, existe alguma distribuição posterior que dá a probabilidade para cada valor de parâmetro. Mas é um pouco difícil de ver como poderia ser, e é impossível de resolver analiticamente. Introduza os métodos MCMC.

MCMC métodos permitem-nos estimar a forma de uma distribuição posterior no caso de não a podermos calcular directamente. Recorde que MCMC significa métodos da cadeia de Markov Monte Carlo. Para entender como eles funcionam, vou apresentar primeiro as simulações de Monte Carlo e depois discutir as cadeias de Markov.

Deixe uma resposta

O seu endereço de email não será publicado.