Was sind also Markov-Chain-Monte-Carlo-Methoden (MCMC)? Die kurze Antwort lautet:
MCMC-Methoden werden verwendet, um die Posterior-Verteilung eines interessierenden Parameters durch Zufallsstichproben in einem probabilistischen Raum zu approximieren.
In diesem Artikel werde ich diese kurze Antwort ohne jegliche Mathematik erklären.
Zunächst einige Begriffe. Ein interessanter Parameter ist einfach eine Zahl, die ein Phänomen zusammenfasst, an dem wir interessiert sind. Im Allgemeinen verwenden wir Statistiken, um Parameter zu schätzen. Wenn wir zum Beispiel etwas über die Körpergröße erwachsener Menschen erfahren wollen, könnte unser interessanter Parameter die durchschnittliche Körpergröße in Zoll sein. Eine Verteilung ist eine mathematische Darstellung aller möglichen Werte unseres Parameters und der Wahrscheinlichkeit, dass wir jeden einzelnen davon beobachten. Das berühmteste Beispiel ist die Glockenkurve:
In der Bayes’schen Methode der Statistik haben Verteilungen eine zusätzliche Interpretation. Anstatt nur die Werte eines Parameters darzustellen und wie wahrscheinlich es ist, dass jeder dieser Werte der wahre Wert ist, betrachtet ein Bayesianer eine Verteilung als Beschreibung unserer Überzeugungen über einen Parameter. Daher zeigt die obige Glockenkurve, dass wir ziemlich sicher sind, dass der Wert des Parameters nahe Null liegt, aber wir denken, dass die Wahrscheinlichkeit, dass der wahre Wert über oder unter diesem Wert liegt, bis zu einem gewissen Punkt gleich groß ist.
Da die menschliche Körpergröße einer Normalkurve folgt, nehmen wir an, dass der wahre Wert der durchschnittlichen Körpergröße einer Glockenkurve wie dieser folgt folgt:
Die Person mit den Überzeugungen, die durch dieses Diagramm dargestellt werden, hat offensichtlich jahrelang unter Riesen gelebt, denn soweit sie weiß, ist die wahrscheinlichste durchschnittliche Körpergröße eines Erwachsenen 1,90 m (aber sie ist sich nicht super sicher, wie auch immer).
Stellen wir uns vor, dass diese Person Daten sammelt und eine Reihe von Menschen zwischen 1,80 und 1,80 m beobachtet. Wir können diese Daten unten darstellen, zusammen mit einer anderen Normalkurve, die zeigt, welche Werte der durchschnittlichen menschlichen Größe die Daten am besten erklären:
In der Bayes’schen Statistik wird die Verteilung, die unsere Überzeugungen über einen Parameter darstellt, als Prior-Verteilung bezeichnet, weil sie unsere Überzeugungen erfasst, bevor wir irgendwelche Daten sehen. Die Likelihood-Verteilung fasst zusammen, was die beobachteten Daten uns sagen, indem sie einen Bereich von Parameterwerten zusammen mit der Wahrscheinlichkeit darstellt, dass jeder einzelne Parameter die beobachteten Daten erklärt. Die Schätzung des Parameterwerts, der die Likelihood-Verteilung maximiert, ist lediglich eine Antwort auf die Frage: Welcher Parameterwert macht es am wahrscheinlichsten, dass die von uns beobachteten Daten beobachtet werden? Ohne vorherige Überzeugungen könnten wir es dabei belassen.
Der Schlüssel zur Bayes’schen Analyse besteht jedoch darin, die vorherige und die Likelihood-Verteilung zu kombinieren, um die Posterior-Verteilung zu bestimmen. Diese sagt uns, welche Parameterwerte die Wahrscheinlichkeit maximieren, die von uns beobachteten Daten zu erhalten, wenn wir unsere vorherigen Überzeugungen berücksichtigen. In unserem Fall sieht die Posterior-Verteilung wie folgt aus:
Die rote Linie oben stellt die Posterior-Verteilung dar. Man kann sie sich als eine Art Mittelwert der Prior- und der Likelihood-Verteilung vorstellen. Da die vorherige Verteilung kürzer und breiter gefächert ist, stellt sie eine Reihe von Annahmen dar, die „weniger sicher“ über den wahren Wert der durchschnittlichen menschlichen Größe sind. In der Zwischenzeit fasst die Wahrscheinlichkeitsverteilung die Daten innerhalb eines relativ engen Bereichs zusammen, so dass sie eine „sicherere“ Schätzung des wahren Parameterwerts darstellt.
Wenn die Prior-Verteilung und die Wahrscheinlichkeitsverteilung kombiniert werden, dominieren die Daten (repräsentiert durch die Wahrscheinlichkeitsverteilung) die schwachen Prior-Überzeugungen des hypothetischen Individuums, das unter Riesen aufgewachsen ist. Obwohl dieses Individuum immer noch glaubt, dass die durchschnittliche menschliche Größe etwas höher ist als das, was die Daten ihm sagen, ist es größtenteils von den Daten überzeugt.
Im Fall von zwei Glockenkurven ist die Lösung für die posteriore Verteilung sehr einfach. Es gibt eine einfache Gleichung für die Kombination der beiden. Aber was wäre, wenn unsere Prior- und Likelihood-Verteilungen nicht so brav wären? Manchmal ist es am genauesten, unsere Daten oder unsere Vorannahmen mit Verteilungen zu modellieren, die keine günstigen Formen haben. Was wäre, wenn unsere Likelihood am besten durch eine Verteilung mit zwei Spitzen dargestellt würde und wir aus irgendeinem Grund eine wirklich verrückte Prior-Verteilung berücksichtigen wollten? Ich habe dieses Szenario unten visualisiert, indem ich von Hand eine hässliche Prior-Verteilung gezeichnet habe:
Wie zuvor, gibt es eine Posterior-Verteilung, die die Wahrscheinlichkeit für jeden Parameterwert liefert. Aber es ist ein wenig schwierig zu sehen, wie sie aussehen könnte, und es ist unmöglich, sie analytisch zu lösen. Hier kommen die MCMC-Methoden ins Spiel.
MMC-Methoden ermöglichen es uns, die Form einer Posterior-Verteilung zu schätzen, wenn wir sie nicht direkt berechnen können. MCMC steht für Markov-Chain-Monte-Carlo-Methoden. Um zu verstehen, wie sie funktionieren, werde ich zunächst Monte-Carlo-Simulationen vorstellen und dann Markov-Ketten besprechen.