Erősítéses tanulás

A megerősítéses tanulás a gépi tanulás egyik területe. Arról szól, hogy egy adott szituációban a jutalom maximalizálása érdekében megfelelő lépéseket teszünk. Különböző szoftverek és gépek alkalmazzák, hogy megtalálják a lehető legjobb viselkedést vagy utat, amit egy adott helyzetben követniük kell. A megerősítéses tanulás abban különbözik a felügyelt tanulástól, hogy a felügyelt tanulásban a képzési adatok tartalmazzák a válaszkulcsot, így a modell maga a helyes válasszal van betanítva, míg a megerősítéses tanulásban nincs válasz, hanem a megerősítő ágens dönti el, hogy mit tegyen az adott feladat elvégzéséhez. Oktatási adathalmaz hiányában kénytelen a tapasztalataiból tanulni.

Példa: A probléma a következő: Van egy ágensünk és egy jutalom, sok akadállyal a kettő között. Az ágensnek meg kell találnia a lehető legjobb utat a jutalom eléréséhez. A következő feladat könnyebben elmagyarázza a problémát.

A fenti képen a robot, a gyémánt és a tűz látható. A robot célja, hogy megszerezze a jutalmat, ami a gyémánt, és elkerülje az akadályokat, ami a tűz. A robot úgy tanul, hogy az összes lehetséges utat kipróbálja, majd azt az utat választja, amelyik a legkevesebb akadállyal járó jutalmat adja. Minden egyes helyes lépés jutalmat ad a robotnak, minden egyes rossz lépés pedig levonja a robot jutalmát. A teljes jutalom akkor kerül kiszámításra, amikor eléri a végső jutalmat, ami a gyémánt.

A megerősítéses tanulás fő pontjai –

Bemenet: A bemenetnek egy kezdeti állapotnak kell lennie, ahonnan a modell elindul
Kimenet:
Tréning:
A modell folytatja a tanulást.
A legjobb megoldás a maximális jutalom alapján dől el.

A megerősített tanulás és a felügyelt tanulás közötti különbség:

erősítéses tanulás	Felügyelt tanulás
A megerősítéses tanulás lényege, hogy a döntéseket egymás után hozzuk meg. Egyszerűen fogalmazva azt mondhatjuk, hogy a kimenet az aktuális bemenet állapotától függ, a következő bemenet pedig az előző bemenet kimenetétől	A felügyelt tanulásban a döntés a kezdeti bemenet vagy az induláskor adott bemenet alapján történik
A megerősített tanulásban a döntés függő, tehát címkéket adunk a függő döntések sorozatának	A felügyelt tanulásban a döntések függetlenek egymástól, tehát címkéket adunk minden egyes döntésnek.
Példa: Sakkjáték	Példa: Tárgyfelismerés

A megerősítés típusai: A megerősítésnek két típusa van:

Pozitív –
Pozitív megerősítésről akkor beszélünk, ha egy adott viselkedés miatt bekövetkező esemény növeli a viselkedés erősségét és gyakoriságát. Más szóval, pozitív hatással van a viselkedésre.
A megerősítéses tanulás előnyei:
- Maximalizálja a teljesítményt
- Hosszú ideig fenntartja a változást
A megerősítéses tanulás hátrányai:
- Túl sok megerősítés az állapotok túlterheléséhez vezethet, ami csökkentheti az eredményeket
Negatív –
Negatív megerősítésnek nevezzük egy viselkedés megerősítését, mert egy negatív állapotot megszüntetünk vagy elkerülünk.
A megerősítéses tanulás előnyei:
- Elősíti a viselkedést
- Minimális teljesítményszint dacára
A megerősítéses tanulás hátrányai:
- Csak a minimális viselkedés teljesítéséhez elegendő

A megerősítéses tanulás különböző gyakorlati alkalmazásai –

A megerősítéses tanulás alkalmazható a robotikában az ipari automatizáláshoz.
RL felhasználható a gépi tanulásban és az adatfeldolgozásban
RL felhasználható olyan képzési rendszerek létrehozására, amelyek a tanulók igényeinek megfelelően egyedi oktatást és tananyagot biztosítanak.

AzRL nagy környezetekben a következő helyzetekben használható:

A környezet modellje ismert, de analitikus megoldás nem áll rendelkezésre;
Csak a környezet szimulációs modellje adott (a szimuláció alapú optimalizálás tárgya)
A környezetről csak úgy lehet információt gyűjteni, ha interakcióba lépünk vele;

GeeksforGeeks

Vélemény, hozzászólás? Kilépés a válaszból