A megerősítéses tanulás a gépi tanulás egyik területe. Arról szól, hogy egy adott szituációban a jutalom maximalizálása érdekében megfelelő lépéseket teszünk. Különböző szoftverek és gépek alkalmazzák, hogy megtalálják a lehető legjobb viselkedést vagy utat, amit egy adott helyzetben követniük kell. A megerősítéses tanulás abban különbözik a felügyelt tanulástól, hogy a felügyelt tanulásban a képzési adatok tartalmazzák a válaszkulcsot, így a modell maga a helyes válasszal van betanítva, míg a megerősítéses tanulásban nincs válasz, hanem a megerősítő ágens dönti el, hogy mit tegyen az adott feladat elvégzéséhez. Oktatási adathalmaz hiányában kénytelen a tapasztalataiból tanulni.
Példa: A probléma a következő: Van egy ágensünk és egy jutalom, sok akadállyal a kettő között. Az ágensnek meg kell találnia a lehető legjobb utat a jutalom eléréséhez. A következő feladat könnyebben elmagyarázza a problémát.
A fenti képen a robot, a gyémánt és a tűz látható. A robot célja, hogy megszerezze a jutalmat, ami a gyémánt, és elkerülje az akadályokat, ami a tűz. A robot úgy tanul, hogy az összes lehetséges utat kipróbálja, majd azt az utat választja, amelyik a legkevesebb akadállyal járó jutalmat adja. Minden egyes helyes lépés jutalmat ad a robotnak, minden egyes rossz lépés pedig levonja a robot jutalmát. A teljes jutalom akkor kerül kiszámításra, amikor eléri a végső jutalmat, ami a gyémánt.
A megerősítéses tanulás fő pontjai –
- Bemenet: A bemenetnek egy kezdeti állapotnak kell lennie, ahonnan a modell elindul
- Kimenet:
- Tréning:
- A modell folytatja a tanulást.
- A legjobb megoldás a maximális jutalom alapján dől el.
A megerősített tanulás és a felügyelt tanulás közötti különbség:
erősítéses tanulás | Felügyelt tanulás |
---|---|
A megerősítéses tanulás lényege, hogy a döntéseket egymás után hozzuk meg. Egyszerűen fogalmazva azt mondhatjuk, hogy a kimenet az aktuális bemenet állapotától függ, a következő bemenet pedig az előző bemenet kimenetétől | A felügyelt tanulásban a döntés a kezdeti bemenet vagy az induláskor adott bemenet alapján történik |
A megerősített tanulásban a döntés függő, tehát címkéket adunk a függő döntések sorozatának | A felügyelt tanulásban a döntések függetlenek egymástól, tehát címkéket adunk minden egyes döntésnek. |
Példa: Sakkjáték | Példa: Tárgyfelismerés |
A megerősítés típusai: A megerősítésnek két típusa van:
- Pozitív –
Pozitív megerősítésről akkor beszélünk, ha egy adott viselkedés miatt bekövetkező esemény növeli a viselkedés erősségét és gyakoriságát. Más szóval, pozitív hatással van a viselkedésre.A megerősítéses tanulás előnyei:
- Maximalizálja a teljesítményt
- Hosszú ideig fenntartja a változást
A megerősítéses tanulás hátrányai:
- Túl sok megerősítés az állapotok túlterheléséhez vezethet, ami csökkentheti az eredményeket
- Negatív –
Negatív megerősítésnek nevezzük egy viselkedés megerősítését, mert egy negatív állapotot megszüntetünk vagy elkerülünk.A megerősítéses tanulás előnyei:
- Elősíti a viselkedést
- Minimális teljesítményszint dacára
A megerősítéses tanulás hátrányai:
- Csak a minimális viselkedés teljesítéséhez elegendő
A megerősítéses tanulás különböző gyakorlati alkalmazásai –
- A megerősítéses tanulás alkalmazható a robotikában az ipari automatizáláshoz.
- RL felhasználható a gépi tanulásban és az adatfeldolgozásban
- RL felhasználható olyan képzési rendszerek létrehozására, amelyek a tanulók igényeinek megfelelően egyedi oktatást és tananyagot biztosítanak.
AzRL nagy környezetekben a következő helyzetekben használható:
- A környezet modellje ismert, de analitikus megoldás nem áll rendelkezésre;
- Csak a környezet szimulációs modellje adott (a szimuláció alapú optimalizálás tárgya)
- A környezetről csak úgy lehet információt gyűjteni, ha interakcióba lépünk vele;