Reinforcement learning jest dziedziną uczenia maszynowego. Polega ono na podejmowaniu odpowiednich działań w celu maksymalizacji nagrody w danej sytuacji. Jest ono stosowane przez różne programy i maszyny w celu znalezienia najlepszego możliwego zachowania lub ścieżki, którą powinny obrać w określonej sytuacji. Uczenie wzmacniające różni się od uczenia nadzorowanego w ten sposób, że w uczeniu nadzorowanym dane treningowe mają klucz odpowiedzi, więc model jest trenowany z poprawną odpowiedzią, podczas gdy w uczeniu wzmacniającym nie ma odpowiedzi, ale agent wzmacniający decyduje, co zrobić, aby wykonać dane zadanie. W przypadku braku zbioru danych treningowych jest on zobowiązany do uczenia się na podstawie swojego doświadczenia.

Przykład: Problem wygląda następująco: Mamy agenta i nagrodę, a pomiędzy nimi wiele przeszkód. Agent ma za zadanie znaleźć najlepszą możliwą ścieżkę, aby dotrzeć do nagrody. Poniższy problem łatwiej wyjaśnia ten problem.

Powyższy obrazek przedstawia robota, diament i ogień. Celem robota jest zdobycie nagrody, którą jest diament i uniknięcie przeszkód, które są ogniem. Robot uczy się próbując wszystkich możliwych ścieżek, a następnie wybierając ścieżkę, która daje mu nagrodę z najmniejszymi przeszkodami. Każdy dobry krok daje robotowi nagrodę, a każdy zły krok odejmuje nagrodę robota. Całkowita nagroda zostanie obliczona po osiągnięciu ostatecznej nagrody, którą jest diament.

Główne punkty w Reinforcement learning –

  • Wejście: Wejście powinno być stanem początkowym, od którego model będzie startował
  • Wyjście: Istnieje wiele możliwych danych wyjściowych, tak jak istnieje różnorodność rozwiązań danego problemu
  • Trening: Szkolenie jest oparte na danych wejściowych, model zwróci stan, a użytkownik zdecyduje się nagrodzić lub ukarać model na podstawie jego danych wyjściowych.
  • Model kontynuuje naukę.
  • Najlepsze rozwiązanie jest wybierane na podstawie maksymalnej nagrody.

Różnica między Reinforcement learning i Supervised learning:

Uczenie wzmacniające Uczenie nadzorowane
Uczenie wzmacniające polega na podejmowaniu decyzji sekwencyjnie. W prostych słowach możemy powiedzieć, że wyjście zależy od stanu bieżącego wejścia, a następne wejście zależy od wyjścia poprzedniego wejścia W uczeniu nadzorowanym decyzja jest podejmowana na podstawie początkowego wejścia lub wejścia podanego na początku
W uczeniu wzmacniającym decyzja jest zależna, więc nadajemy etykiety sekwencjom zależnych decyzji W uczeniu nadzorowanym decyzje są niezależne od siebie, więc etykiety są nadawane każdej decyzji.
Przykład: Gra w szachy Przykład: Rozpoznawanie obiektów

Typy Wzmocnień: Istnieją dwa rodzaje Wzmocnienia:

  1. Pozytywne –
    Wzmocnienie pozytywne definiuje się jako takie, kiedy zdarzenie, występujące w związku z określonym zachowaniem, zwiększa siłę i częstotliwość tego zachowania. Innymi słowy, ma ono pozytywny wpływ na zachowanie.

    Wady uczenia się przez wzmocnienie to:

    • Maksymalizuje wydajność
    • Podtrzymuje zmiany przez długi okres czasu

    Wady uczenia się przez wzmocnienie:

    • Zbyt wiele Wzmocnień może prowadzić do przeciążenia stanów, co może zmniejszyć rezultaty
  2. Negatywne –
    Wzmocnienie negatywne jest definiowane jako wzmocnienie zachowania, ponieważ negatywny warunek jest zatrzymany lub uniknięty.

    Wady uczenia się przez wzmocnienie:

    • Wzmacnia zachowanie
    • Zapewnia przeciwstawienie się minimalnym standardom działania

    Wady uczenia się przez wzmocnienie:

    • Dostarcza tylko tyle, aby spełnić minimalne zachowanie

Różne praktyczne zastosowania Reinforcement Learning –

  • RL może być stosowany w robotyce dla automatyki przemysłowej.
  • RL może być stosowany w uczeniu maszynowym i przetwarzaniu danych
  • RL może być stosowany do tworzenia systemów szkoleniowych, które zapewniają niestandardowe instrukcje i materiały zgodnie z wymaganiami uczniów.

RL może być stosowany w dużych środowiskach w następujących sytuacjach:

  1. Znany jest model środowiska, ale nie jest dostępne rozwiązanie analityczne;
  2. Dany jest tylko model symulacyjny środowiska (przedmiot optymalizacji opartej na symulacji)
  3. Jedynym sposobem zbierania informacji o środowisku jest interakcja z nim.

.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany.