Reinforcement learning je oblast strojového učení. Jde o přijímání vhodných akcí s cílem maximalizovat odměnu v určité situaci. Využívají ho různé programy a stroje, aby našly nejlepší možné chování nebo cestu, kterou by se měly v určité situaci vydat. Učení s posilováním se od učení s dohledem liší tím, že při učení s dohledem mají tréninková data u sebe klíč k odpovědi, takže model je vycvičen se správnou odpovědí sám, zatímco při učení s posilováním žádná odpověď neexistuje, ale o tom, co udělat pro splnění daného úkolu, rozhoduje agent s posilováním. Při absenci trénovacího souboru dat se musí učit na základě svých zkušeností.

Příklad: Problém je následující: Máme agenta a odměnu a mezi nimi mnoho překážek. Agent má najít nejlepší možnou cestu k dosažení odměny. Snadněji problém vysvětlí následující příklad:

Na obrázku výše je robot, diamant a oheň. Cílem robota je získat odměnu, kterou je diamant, a vyhnout se překážkám, kterými je oheň. Robot se učí tak, že vyzkouší všechny možné cesty a pak si vybere cestu, která mu přinese odměnu s nejmenším počtem překážek. Za každý správný krok získá robot odměnu a za každý špatný krok se mu odměna odečte. Celková odměna se vypočítá, když dosáhne konečné odměny, kterou je diamant.

Hlavní body v učení s posilováním –

  • Vstup: Vstupem by měl být počáteční stav, ze kterého bude model vycházet
  • Výstup: Výstupů může být mnoho, protože existuje řada řešení určitého problému
  • Training:
  • Model pokračuje v učení.
  • O nejlepším řešení se rozhoduje na základě maximální odměny.

Rozdíl mezi Reinforcement learning a Supervised learning:

Učení s posilováním Učení s dohledem
Učení s posilováním spočívá v postupném rozhodování. Zjednodušeně lze říci, že výstup závisí na stavu aktuálního vstupu a další vstup závisí na výstupu předchozího vstupu Při učení s dohledem se rozhoduje na základě počátečního vstupu nebo vstupu zadaného na začátku
Při učení s posilováním je rozhodnutí závislé, takže dáváme štítky posloupnosti závislých rozhodnutí Při učení s dohledem jsou rozhodnutí na sobě nezávislá, takže štítky se dávají každému rozhodnutí.
Příklad: Šachová hra Příklad: Rozpoznávání objektů

Typy posilování: Existuje dvojí typ posilování:

  1. Pozitivní –
    Pozitivní posilování je definováno tak, že událost, která nastane v důsledku určitého chování, zvyšuje sílu a četnost tohoto chování. Jinými slovy, má pozitivní vliv na chování.

    Výhody učení s posilováním jsou:

    • Maximalizuje výkon
    • Udržuje změnu po dlouhou dobu

    Nevýhody učení s posilováním:

    • Příliš mnoho posilování může vést k přetížení stavů, což může snížit výsledky
  2. Negativní –
    Negativní posilování je definováno jako posílení chování, protože je zastavena negativní podmínka nebo je jí zabráněno.

    Výhody učení posilováním:

    • Zvyšuje chování
    • Zajišťuje vzdor minimálnímu standardu výkonu

    Nevýhody učení posilováním:

    • Zajišťuje pouze tolik, aby bylo splněno minimální chování

Různé praktické aplikace Reinforcement Learning –

  • RL lze využít v robotice pro průmyslovou automatizaci.
  • RL lze využít při strojovém učení a zpracování dat
  • RL lze využít při vytváření školicích systémů, které poskytují vlastní výuku a materiály podle požadavků studentů.

RL lze použít v rozsáhlých prostředích v následujících situacích:

  1. Je znám model prostředí, ale analytické řešení není k dispozici;
  2. Je dán pouze simulační model prostředí (předmět optimalizace založené na simulaci)
  3. Jediným způsobem, jak získat informace o prostředí, je interakce s ním.

.

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna.