A megerősítéses tanulás a gépi tanulás egyik területe. Arról szól, hogy egy adott szituációban a jutalom maximalizálása érdekében megfelelő lépéseket teszünk. Különböző szoftverek és gépek alkalmazzák, hogy megtalálják a lehető legjobb viselkedést vagy utat, amit egy adott helyzetben követniük kell. A megerősítéses tanulás abban különbözik a felügyelt tanulástól, hogy a felügyelt tanulásban a képzési adatok tartalmazzák a válaszkulcsot, így a modell maga a helyes válasszal van betanítva, míg a megerősítéses tanulásban nincs válasz, hanem a megerősítő ágens dönti el, hogy mit tegyen az adott feladat elvégzéséhez. Oktatási adathalmaz hiányában kénytelen a tapasztalataiból tanulni.

Példa: A probléma a következő: Van egy ágensünk és egy jutalom, sok akadállyal a kettő között. Az ágensnek meg kell találnia a lehető legjobb utat a jutalom eléréséhez. A következő feladat könnyebben elmagyarázza a problémát.

A fenti képen a robot, a gyémánt és a tűz látható. A robot célja, hogy megszerezze a jutalmat, ami a gyémánt, és elkerülje az akadályokat, ami a tűz. A robot úgy tanul, hogy az összes lehetséges utat kipróbálja, majd azt az utat választja, amelyik a legkevesebb akadállyal járó jutalmat adja. Minden egyes helyes lépés jutalmat ad a robotnak, minden egyes rossz lépés pedig levonja a robot jutalmát. A teljes jutalom akkor kerül kiszámításra, amikor eléri a végső jutalmat, ami a gyémánt.

A megerősítéses tanulás fő pontjai –

  • Bemenet: A bemenetnek egy kezdeti állapotnak kell lennie, ahonnan a modell elindul
  • Kimenet:
  • Tréning:
  • A modell folytatja a tanulást.
  • A legjobb megoldás a maximális jutalom alapján dől el.

A megerősített tanulás és a felügyelt tanulás közötti különbség:

erősítéses tanulás Felügyelt tanulás
A megerősítéses tanulás lényege, hogy a döntéseket egymás után hozzuk meg. Egyszerűen fogalmazva azt mondhatjuk, hogy a kimenet az aktuális bemenet állapotától függ, a következő bemenet pedig az előző bemenet kimenetétől A felügyelt tanulásban a döntés a kezdeti bemenet vagy az induláskor adott bemenet alapján történik
A megerősített tanulásban a döntés függő, tehát címkéket adunk a függő döntések sorozatának A felügyelt tanulásban a döntések függetlenek egymástól, tehát címkéket adunk minden egyes döntésnek.
Példa: Sakkjáték Példa: Tárgyfelismerés

A megerősítés típusai: A megerősítésnek két típusa van:

  1. Pozitív –
    Pozitív megerősítésről akkor beszélünk, ha egy adott viselkedés miatt bekövetkező esemény növeli a viselkedés erősségét és gyakoriságát. Más szóval, pozitív hatással van a viselkedésre.

    A megerősítéses tanulás előnyei:

    • Maximalizálja a teljesítményt
    • Hosszú ideig fenntartja a változást

    A megerősítéses tanulás hátrányai:

    • Túl sok megerősítés az állapotok túlterheléséhez vezethet, ami csökkentheti az eredményeket
  2. Negatív –
    Negatív megerősítésnek nevezzük egy viselkedés megerősítését, mert egy negatív állapotot megszüntetünk vagy elkerülünk.

    A megerősítéses tanulás előnyei:

    • Elősíti a viselkedést
    • Minimális teljesítményszint dacára

    A megerősítéses tanulás hátrányai:

    • Csak a minimális viselkedés teljesítéséhez elegendő

A megerősítéses tanulás különböző gyakorlati alkalmazásai –

  • A megerősítéses tanulás alkalmazható a robotikában az ipari automatizáláshoz.
  • RL felhasználható a gépi tanulásban és az adatfeldolgozásban
  • RL felhasználható olyan képzési rendszerek létrehozására, amelyek a tanulók igényeinek megfelelően egyedi oktatást és tananyagot biztosítanak.

AzRL nagy környezetekben a következő helyzetekben használható:

  1. A környezet modellje ismert, de analitikus megoldás nem áll rendelkezésre;
  2. Csak a környezet szimulációs modellje adott (a szimuláció alapú optimalizálás tárgya)
  3. A környezetről csak úgy lehet információt gyűjteni, ha interakcióba lépünk vele;

Vélemény, hozzászólás?

Az e-mail-címet nem tesszük közzé.