Reinforcement learning je oblast strojového učení. Jde o přijímání vhodných akcí s cílem maximalizovat odměnu v určité situaci. Využívají ho různé programy a stroje, aby našly nejlepší možné chování nebo cestu, kterou by se měly v určité situaci vydat. Učení s posilováním se od učení s dohledem liší tím, že při učení s dohledem mají tréninková data u sebe klíč k odpovědi, takže model je vycvičen se správnou odpovědí sám, zatímco při učení s posilováním žádná odpověď neexistuje, ale o tom, co udělat pro splnění daného úkolu, rozhoduje agent s posilováním. Při absenci trénovacího souboru dat se musí učit na základě svých zkušeností.
Příklad: Problém je následující: Máme agenta a odměnu a mezi nimi mnoho překážek. Agent má najít nejlepší možnou cestu k dosažení odměny. Snadněji problém vysvětlí následující příklad:
Na obrázku výše je robot, diamant a oheň. Cílem robota je získat odměnu, kterou je diamant, a vyhnout se překážkám, kterými je oheň. Robot se učí tak, že vyzkouší všechny možné cesty a pak si vybere cestu, která mu přinese odměnu s nejmenším počtem překážek. Za každý správný krok získá robot odměnu a za každý špatný krok se mu odměna odečte. Celková odměna se vypočítá, když dosáhne konečné odměny, kterou je diamant.
Hlavní body v učení s posilováním –
- Vstup: Vstupem by měl být počáteční stav, ze kterého bude model vycházet
- Výstup: Výstupů může být mnoho, protože existuje řada řešení určitého problému
- Training:
- Model pokračuje v učení.
- O nejlepším řešení se rozhoduje na základě maximální odměny.
Rozdíl mezi Reinforcement learning a Supervised learning:
Učení s posilováním | Učení s dohledem |
---|---|
Učení s posilováním spočívá v postupném rozhodování. Zjednodušeně lze říci, že výstup závisí na stavu aktuálního vstupu a další vstup závisí na výstupu předchozího vstupu | Při učení s dohledem se rozhoduje na základě počátečního vstupu nebo vstupu zadaného na začátku |
Při učení s posilováním je rozhodnutí závislé, takže dáváme štítky posloupnosti závislých rozhodnutí | Při učení s dohledem jsou rozhodnutí na sobě nezávislá, takže štítky se dávají každému rozhodnutí. |
Příklad: Šachová hra | Příklad: Rozpoznávání objektů |
Typy posilování: Existuje dvojí typ posilování:
- Pozitivní –
Pozitivní posilování je definováno tak, že událost, která nastane v důsledku určitého chování, zvyšuje sílu a četnost tohoto chování. Jinými slovy, má pozitivní vliv na chování.Výhody učení s posilováním jsou:
- Maximalizuje výkon
- Udržuje změnu po dlouhou dobu
Nevýhody učení s posilováním:
- Příliš mnoho posilování může vést k přetížení stavů, což může snížit výsledky
- Negativní –
Negativní posilování je definováno jako posílení chování, protože je zastavena negativní podmínka nebo je jí zabráněno.Výhody učení posilováním:
- Zvyšuje chování
- Zajišťuje vzdor minimálnímu standardu výkonu
Nevýhody učení posilováním:
- Zajišťuje pouze tolik, aby bylo splněno minimální chování
Různé praktické aplikace Reinforcement Learning –
- RL lze využít v robotice pro průmyslovou automatizaci.
- RL lze využít při strojovém učení a zpracování dat
- RL lze využít při vytváření školicích systémů, které poskytují vlastní výuku a materiály podle požadavků studentů.
RL lze použít v rozsáhlých prostředích v následujících situacích:
- Je znám model prostředí, ale analytické řešení není k dispozici;
- Je dán pouze simulační model prostředí (předmět optimalizace založené na simulaci)
- Jediným způsobem, jak získat informace o prostředí, je interakce s ním.
.