Alors, que sont les méthodes de Monte Carlo à chaîne de Markov (MCMC) ? La réponse courte est:

Les méthodes MCMC sont utilisées pour approximer la distribution postérieure d’un paramètre d’intérêt par échantillonnage aléatoire dans un espace probabiliste.

Dans cet article, je vais expliquer cette réponse courte, sans aucune mathématique.

D’abord, un peu de terminologie. Un paramètre d’intérêt est juste un certain nombre qui résume un phénomène qui nous intéresse. En général, nous utilisons les statistiques pour estimer les paramètres. Par exemple, si nous voulons connaître la taille des adultes humains, notre paramètre d’intérêt pourrait être la taille moyenne en pouces. Une distribution est une représentation mathématique de toutes les valeurs possibles de notre paramètre et de la probabilité d’observer chacune d’entre elles. L’exemple le plus célèbre est une courbe en cloche :

Courtesy M. W. Toews

Dans la manière bayésienne de faire des statistiques, les distributions ont une interprétation supplémentaire. Au lieu de représenter simplement les valeurs d’un paramètre et la probabilité que chacune d’entre elles soit la vraie valeur, un bayésien considère qu’une distribution décrit nos croyances sur un paramètre. Par conséquent, la courbe en cloche ci-dessus montre que nous sommes à peu près sûrs que la valeur du paramètre est assez proche de zéro, mais nous pensons qu’il y a une probabilité égale que la vraie valeur soit supérieure ou inférieure à cette valeur, jusqu’à un certain point.

Comme il se trouve que les hauteurs humaines suivent une courbe normale, disons que nous croyons que la vraie valeur de la hauteur humaine moyenne suit une courbe en cloche comme ceci :

Il est clair que la personne aux croyances représentées par ce graphique a vécu parmi des géants pendant des années, car pour autant qu’elle le sache, la taille moyenne adulte la plus probable est de 1,80 m (mais elle n’est pas super confiante dans un sens ou dans l’autre).

Imaginons que cette personne soit allée collecter des données, et qu’elle ait observé un éventail de personnes mesurant entre 1m70 et 1m80. Nous pouvons représenter ces données ci-dessous, ainsi qu’une autre courbe normale qui montre quelles valeurs de la taille humaine moyenne expliquent le mieux les données :

En statistique bayésienne, la distribution représentant nos croyances sur un paramètre est appelée distribution préalable, car elle capture nos croyances avant de voir des données. La distribution de vraisemblance résume ce que les données observées nous disent, en représentant une gamme de valeurs de paramètres accompagnée de la vraisemblance que chaque paramètre explique les données que nous observons. Estimer la valeur du paramètre qui maximise la distribution de vraisemblance revient à répondre à la question suivante : quelle valeur de paramètre rendrait le plus probable l’observation des données que nous avons observées ? En l’absence de croyances préalables, nous pourrions nous arrêter là.

La clé de l’analyse bayésienne, cependant, est de combiner les distributions préalables et de vraisemblance pour déterminer la distribution postérieure. Celle-ci nous indique quelles valeurs de paramètres maximisent la chance d’observer les données particulières que nous avons obtenues, en tenant compte de nos croyances antérieures. Dans notre cas, la distribution postérieure ressemble à ceci:

Au-dessus, la ligne rouge représente la distribution postérieure. Vous pouvez la considérer comme une sorte de moyenne de la distribution antérieure et de la distribution de vraisemblance. Comme la distribution antérieure est plus courte et plus étalée, elle représente un ensemble de croyances qui sont « moins sûres » de la vraie valeur de la taille humaine moyenne. Pendant ce temps, la vraisemblance résume les données dans une plage relativement étroite, elle représente donc une supposition  » plus sûre  » de la vraie valeur du paramètre.

Lorsque l’antériorité et la vraisemblance sont combinées, les données (représentées par la vraisemblance) dominent les faibles croyances antérieures de l’individu hypothétique qui avait grandi parmi les géants. Bien que cet individu croit toujours que la taille humaine moyenne est légèrement plus élevée que ce que les données lui disent, il est surtout convaincu par les données.

Dans le cas de deux courbes en cloche, la résolution de la distribution postérieure est très facile. Il existe une équation simple pour combiner les deux. Mais que faire si nos distributions antérieures et de vraisemblance ne se comportaient pas aussi bien ? Parfois, il est plus précis de modéliser nos données ou nos croyances préalables à l’aide de distributions qui n’ont pas des formes commodes. Et si notre probabilité était mieux représentée par une distribution à deux pics et que, pour une raison quelconque, nous voulions tenir compte d’une distribution antérieure vraiment farfelue ? J’ai visualisé ce scénario ci-dessous, en dessinant à la main une distribution antérieure moche :

Visualisations rendues dans Matplotlib, améliorées en utilisant MS Paint

Comme précédemment, il existe une certaine distribution postérieure qui donne la vraisemblance pour chaque valeur de paramètre. Mais il est difficile de voir à quoi elle pourrait ressembler, et il est impossible de la résoudre analytiquement. Entrez dans les méthodes MCMC.

Les méthodes MCMC nous permettent d’estimer la forme d’une distribution postérieure dans le cas où nous ne pouvons pas la calculer directement. Rappelons que MCMC est l’abréviation de Markov chain Monte Carlo methods. Pour comprendre comment elles fonctionnent, je vais d’abord présenter les simulations de Monte Carlo, puis discuter des chaînes de Markov.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.