Verstärkungslernen ist ein Bereich des maschinellen Lernens. Es geht darum, geeignete Maßnahmen zu ergreifen, um die Belohnung in einer bestimmten Situation zu maximieren. Es wird von verschiedenen Programmen und Maschinen eingesetzt, um das bestmögliche Verhalten oder den bestmöglichen Weg in einer bestimmten Situation zu finden. Verstärkungslernen unterscheidet sich vom überwachten Lernen dadurch, dass beim überwachten Lernen die Trainingsdaten den Antwortschlüssel enthalten, so dass das Modell mit der richtigen Antwort selbst trainiert wird, während es beim Verstärkungslernen keine Antwort gibt, sondern der Verstärkungsagent entscheidet, was zu tun ist, um die gegebene Aufgabe zu erfüllen. In Ermangelung eines Trainingsdatensatzes ist er gezwungen, aus seinen Erfahrungen zu lernen.
Beispiel: Das Problem ist wie folgt: Wir haben einen Agenten und eine Belohnung, mit vielen Hürden dazwischen. Der Agent soll den bestmöglichen Weg finden, um die Belohnung zu erreichen. Das folgende Problem erklärt das Problem leichter.
Das obige Bild zeigt den Roboter, den Diamanten und das Feuer. Das Ziel des Roboters ist es, die Belohnung, den Diamanten, zu bekommen und die Hürden, das Feuer, zu vermeiden. Der Roboter lernt, indem er alle möglichen Wege ausprobiert und dann den Weg wählt, der ihm die Belohnung mit den wenigsten Hürden bringt. Für jeden richtigen Schritt erhält der Roboter eine Belohnung, und jeder falsche Schritt zieht die Belohnung des Roboters ab. Die Gesamtbelohnung wird berechnet, wenn er die endgültige Belohnung erreicht, die der Diamant ist.
Hauptpunkte beim Reinforcement Learning –
- Eingabe: Der Input sollte ein Anfangszustand sein, von dem das Modell ausgeht
- Output: Es gibt viele mögliche Ausgaben, da es eine Vielzahl von Lösungen für ein bestimmtes Problem gibt
- Training: Das Training basiert auf den Eingaben, das Modell gibt einen Zustand zurück und der Benutzer entscheidet, das Modell auf der Grundlage seiner Ausgabe zu belohnen oder zu bestrafen.
- Das Modell lernt weiter.
- Die beste Lösung wird auf der Grundlage der maximalen Belohnung entschieden.
Unterschied zwischen Reinforcement Learning und Supervised Learning:
Verstärkungslernen | Überwachtes Lernen |
---|---|
Beim Verstärkungslernen geht es darum, Entscheidungen sequentiell zu treffen. In einfachen Worten können wir sagen, dass die Ausgabe vom Zustand der aktuellen Eingabe abhängt und die nächste Eingabe von der Ausgabe der vorherigen Eingabe abhängt | Beim überwachten Lernen wird die Entscheidung auf der anfänglichen Eingabe oder der zu Beginn gegebenen Eingabe getroffen |
Beim Verstärkungslernen ist die Entscheidung abhängig, also geben wir den Sequenzen von abhängigen Entscheidungen Etiketten | Beim überwachten Lernen sind die Entscheidungen unabhängig voneinander, also werden jeder Entscheidung Etiketten gegeben. |
Beispiel: Schachspiel | Beispiel: Objekterkennung |
Arten der Verstärkung: Es gibt zwei Arten von Verstärkung:
- Positive –
Positive Verstärkung ist definiert als ein Ereignis, das aufgrund eines bestimmten Verhaltens auftritt und die Stärke und Häufigkeit des Verhaltens erhöht. Mit anderen Worten, es hat eine positive Wirkung auf das Verhalten.Vorteile des Verstärkungslernens sind:
- Maximiert die Leistung
- Nachhaltige Veränderung über einen langen Zeitraum
Nachteile des Verstärkungslernens:
- Zu viel Verstärkung kann zu einer Überlastung der Zustände führen, was die Ergebnisse schmälern kann
- Negative –
Negative Verstärkung ist definiert als Verstärkung eines Verhaltens, weil eine negative Bedingung beendet oder vermieden wird.Vorteile des Verstärkungslernens:
- Verstärkung des Verhaltens
- Aufrechterhaltung eines Mindeststandards der Leistung
Nachteile des Verstärkungslernens:
- Es reicht nur aus, um das Mindestverhalten zu erfüllen
Verschiedene praktische Anwendungen von Reinforcement Learning –
- RL kann in der Robotik für die industrielle Automatisierung eingesetzt werden.
- RL kann im Bereich des maschinellen Lernens und der Datenverarbeitung eingesetzt werden
- RL kann zur Erstellung von Trainingssystemen verwendet werden, die maßgeschneiderte Anweisungen und Materialien entsprechend den Anforderungen der Schüler liefern.
RL kann in großen Umgebungen in folgenden Situationen eingesetzt werden:
- Ein Modell der Umgebung ist bekannt, aber eine analytische Lösung ist nicht verfügbar;
- Nur ein Simulationsmodell der Umgebung ist gegeben (Gegenstand der simulationsbasierten Optimierung)
- Die einzige Möglichkeit, Informationen über die Umgebung zu sammeln, ist die Interaktion mit ihr.