Reinforcement learning

Reinforcement learning jest dziedziną uczenia maszynowego. Polega ono na podejmowaniu odpowiednich działań w celu maksymalizacji nagrody w danej sytuacji. Jest ono stosowane przez różne programy i maszyny w celu znalezienia najlepszego możliwego zachowania lub ścieżki, którą powinny obrać w określonej sytuacji. Uczenie wzmacniające różni się od uczenia nadzorowanego w ten sposób, że w uczeniu nadzorowanym dane treningowe mają klucz odpowiedzi, więc model jest trenowany z poprawną odpowiedzią, podczas gdy w uczeniu wzmacniającym nie ma odpowiedzi, ale agent wzmacniający decyduje, co zrobić, aby wykonać dane zadanie. W przypadku braku zbioru danych treningowych jest on zobowiązany do uczenia się na podstawie swojego doświadczenia.

Przykład: Problem wygląda następująco: Mamy agenta i nagrodę, a pomiędzy nimi wiele przeszkód. Agent ma za zadanie znaleźć najlepszą możliwą ścieżkę, aby dotrzeć do nagrody. Poniższy problem łatwiej wyjaśnia ten problem.

Powyższy obrazek przedstawia robota, diament i ogień. Celem robota jest zdobycie nagrody, którą jest diament i uniknięcie przeszkód, które są ogniem. Robot uczy się próbując wszystkich możliwych ścieżek, a następnie wybierając ścieżkę, która daje mu nagrodę z najmniejszymi przeszkodami. Każdy dobry krok daje robotowi nagrodę, a każdy zły krok odejmuje nagrodę robota. Całkowita nagroda zostanie obliczona po osiągnięciu ostatecznej nagrody, którą jest diament.

Główne punkty w Reinforcement learning –

Wejście: Wejście powinno być stanem początkowym, od którego model będzie startował
Wyjście: Istnieje wiele możliwych danych wyjściowych, tak jak istnieje różnorodność rozwiązań danego problemu
Trening: Szkolenie jest oparte na danych wejściowych, model zwróci stan, a użytkownik zdecyduje się nagrodzić lub ukarać model na podstawie jego danych wyjściowych.
Model kontynuuje naukę.
Najlepsze rozwiązanie jest wybierane na podstawie maksymalnej nagrody.

Różnica między Reinforcement learning i Supervised learning:

Uczenie wzmacniające	Uczenie nadzorowane
Uczenie wzmacniające polega na podejmowaniu decyzji sekwencyjnie. W prostych słowach możemy powiedzieć, że wyjście zależy od stanu bieżącego wejścia, a następne wejście zależy od wyjścia poprzedniego wejścia	W uczeniu nadzorowanym decyzja jest podejmowana na podstawie początkowego wejścia lub wejścia podanego na początku
W uczeniu wzmacniającym decyzja jest zależna, więc nadajemy etykiety sekwencjom zależnych decyzji	W uczeniu nadzorowanym decyzje są niezależne od siebie, więc etykiety są nadawane każdej decyzji.
Przykład: Gra w szachy	Przykład: Rozpoznawanie obiektów

Typy Wzmocnień: Istnieją dwa rodzaje Wzmocnienia:

Pozytywne –
Wzmocnienie pozytywne definiuje się jako takie, kiedy zdarzenie, występujące w związku z określonym zachowaniem, zwiększa siłę i częstotliwość tego zachowania. Innymi słowy, ma ono pozytywny wpływ na zachowanie.
Wady uczenia się przez wzmocnienie to:
- Maksymalizuje wydajność
- Podtrzymuje zmiany przez długi okres czasu
Wady uczenia się przez wzmocnienie:
- Zbyt wiele Wzmocnień może prowadzić do przeciążenia stanów, co może zmniejszyć rezultaty
Negatywne –
Wzmocnienie negatywne jest definiowane jako wzmocnienie zachowania, ponieważ negatywny warunek jest zatrzymany lub uniknięty.
Wady uczenia się przez wzmocnienie:
- Wzmacnia zachowanie
- Zapewnia przeciwstawienie się minimalnym standardom działania
Wady uczenia się przez wzmocnienie:
- Dostarcza tylko tyle, aby spełnić minimalne zachowanie

Różne praktyczne zastosowania Reinforcement Learning –

RL może być stosowany w robotyce dla automatyki przemysłowej.
RL może być stosowany w uczeniu maszynowym i przetwarzaniu danych
RL może być stosowany do tworzenia systemów szkoleniowych, które zapewniają niestandardowe instrukcje i materiały zgodnie z wymaganiami uczniów.

RL może być stosowany w dużych środowiskach w następujących sytuacjach:

Znany jest model środowiska, ale nie jest dostępne rozwiązanie analityczne;
Dany jest tylko model symulacyjny środowiska (przedmiot optymalizacji opartej na symulacji)
Jedynym sposobem zbierania informacji o środowisku jest interakcja z nim.

GeeksforGeeks

Dodaj komentarz Anuluj pisanie odpowiedzi