Reinforcement learning jest dziedziną uczenia maszynowego. Polega ono na podejmowaniu odpowiednich działań w celu maksymalizacji nagrody w danej sytuacji. Jest ono stosowane przez różne programy i maszyny w celu znalezienia najlepszego możliwego zachowania lub ścieżki, którą powinny obrać w określonej sytuacji. Uczenie wzmacniające różni się od uczenia nadzorowanego w ten sposób, że w uczeniu nadzorowanym dane treningowe mają klucz odpowiedzi, więc model jest trenowany z poprawną odpowiedzią, podczas gdy w uczeniu wzmacniającym nie ma odpowiedzi, ale agent wzmacniający decyduje, co zrobić, aby wykonać dane zadanie. W przypadku braku zbioru danych treningowych jest on zobowiązany do uczenia się na podstawie swojego doświadczenia.
Przykład: Problem wygląda następująco: Mamy agenta i nagrodę, a pomiędzy nimi wiele przeszkód. Agent ma za zadanie znaleźć najlepszą możliwą ścieżkę, aby dotrzeć do nagrody. Poniższy problem łatwiej wyjaśnia ten problem.
Powyższy obrazek przedstawia robota, diament i ogień. Celem robota jest zdobycie nagrody, którą jest diament i uniknięcie przeszkód, które są ogniem. Robot uczy się próbując wszystkich możliwych ścieżek, a następnie wybierając ścieżkę, która daje mu nagrodę z najmniejszymi przeszkodami. Każdy dobry krok daje robotowi nagrodę, a każdy zły krok odejmuje nagrodę robota. Całkowita nagroda zostanie obliczona po osiągnięciu ostatecznej nagrody, którą jest diament.
Główne punkty w Reinforcement learning –
- Wejście: Wejście powinno być stanem początkowym, od którego model będzie startował
- Wyjście: Istnieje wiele możliwych danych wyjściowych, tak jak istnieje różnorodność rozwiązań danego problemu
- Trening: Szkolenie jest oparte na danych wejściowych, model zwróci stan, a użytkownik zdecyduje się nagrodzić lub ukarać model na podstawie jego danych wyjściowych.
- Model kontynuuje naukę.
- Najlepsze rozwiązanie jest wybierane na podstawie maksymalnej nagrody.
Różnica między Reinforcement learning i Supervised learning:
Uczenie wzmacniające | Uczenie nadzorowane |
---|---|
Uczenie wzmacniające polega na podejmowaniu decyzji sekwencyjnie. W prostych słowach możemy powiedzieć, że wyjście zależy od stanu bieżącego wejścia, a następne wejście zależy od wyjścia poprzedniego wejścia | W uczeniu nadzorowanym decyzja jest podejmowana na podstawie początkowego wejścia lub wejścia podanego na początku |
W uczeniu wzmacniającym decyzja jest zależna, więc nadajemy etykiety sekwencjom zależnych decyzji | W uczeniu nadzorowanym decyzje są niezależne od siebie, więc etykiety są nadawane każdej decyzji. |
Przykład: Gra w szachy | Przykład: Rozpoznawanie obiektów |
Typy Wzmocnień: Istnieją dwa rodzaje Wzmocnienia:
- Pozytywne –
Wzmocnienie pozytywne definiuje się jako takie, kiedy zdarzenie, występujące w związku z określonym zachowaniem, zwiększa siłę i częstotliwość tego zachowania. Innymi słowy, ma ono pozytywny wpływ na zachowanie.Wady uczenia się przez wzmocnienie to:
- Maksymalizuje wydajność
- Podtrzymuje zmiany przez długi okres czasu
Wady uczenia się przez wzmocnienie:
- Zbyt wiele Wzmocnień może prowadzić do przeciążenia stanów, co może zmniejszyć rezultaty
- Negatywne –
Wzmocnienie negatywne jest definiowane jako wzmocnienie zachowania, ponieważ negatywny warunek jest zatrzymany lub uniknięty.Wady uczenia się przez wzmocnienie:
- Wzmacnia zachowanie
- Zapewnia przeciwstawienie się minimalnym standardom działania
Wady uczenia się przez wzmocnienie:
- Dostarcza tylko tyle, aby spełnić minimalne zachowanie
Różne praktyczne zastosowania Reinforcement Learning –
- RL może być stosowany w robotyce dla automatyki przemysłowej.
- RL może być stosowany w uczeniu maszynowym i przetwarzaniu danych
- RL może być stosowany do tworzenia systemów szkoleniowych, które zapewniają niestandardowe instrukcje i materiały zgodnie z wymaganiami uczniów.
RL może być stosowany w dużych środowiskach w następujących sytuacjach:
- Znany jest model środowiska, ale nie jest dostępne rozwiązanie analityczne;
- Dany jest tylko model symulacyjny środowiska (przedmiot optymalizacji opartej na symulacji)
- Jedynym sposobem zbierania informacji o środowisku jest interakcja z nim.
.