Învățarea prin întărire este un domeniu al învățării automate. Este vorba despre luarea unei acțiuni adecvate pentru a maximiza recompensa într-o anumită situație. Este utilizată de diverse software-uri și mașini pentru a găsi cel mai bun comportament posibil sau calea pe care ar trebui să o urmeze într-o anumită situație. Învățarea prin întărire diferă de învățarea supravegheată în sensul că, în cazul învățării supravegheate, datele de instruire conțin cheia de răspuns, astfel încât modelul este instruit cu răspunsul corect, în timp ce în cazul învățării prin întărire nu există un răspuns, ci agentul de întărire decide ce să facă pentru a îndeplini sarcina dată. În absența unui set de date de instruire, acesta este obligat să învețe din experiența sa.
Exemplu: Problema este următoarea: Avem un agent și o recompensă, cu multe obstacole între ele. Agentul trebuie să găsească cea mai bună cale posibilă pentru a ajunge la recompensă. Următoarea problemă explică mai ușor problema.
Imaginea de mai sus prezintă robotul, diamantul și focul. Scopul robotului este de a obține recompensa care este diamantul și de a evita obstacolele care sunt focul. Robotul învață încercând toate căile posibile și apoi alegând calea care îi oferă recompensa cu cele mai puține obstacole. Fiecare pas corect îi va oferi robotului o recompensă, iar fiecare pas greșit îi va scădea recompensa. Recompensa totală va fi calculată atunci când acesta ajunge la recompensa finală care este diamantul.
Puncte principale în învățarea prin întărire –
- Intrare: Intrarea ar trebui să fie o stare inițială de la care va porni modelul
- Scoatere: Există mai multe ieșiri posibile, deoarece există o varietate de soluții la o anumită problemă
- Învățare: Modelul va returna o stare, iar utilizatorul va decide să recompenseze sau să pedepsească modelul pe baza ieșirii sale.
- Modelul continuă să învețe.
- Cea mai bună soluție este decisă pe baza recompensei maxime.
Diferența dintre învățarea prin întărire și învățarea supravegheată:
Învățarea prin întărire | Învățarea supravegheată |
---|---|
Învățarea prin întărire constă în luarea deciziilor în mod secvențial. În cuvinte simple, putem spune că ieșirea depinde de starea intrării curente, iar următoarea intrare depinde de ieșirea intrării anterioare | În învățarea supravegheată, decizia se ia în funcție de intrarea inițială sau de intrarea dată la început |
În învățarea prin întărire, decizia este dependentă, astfel încât acordăm etichete secvențelor de decizii dependente | Învățarea supravegheată, deciziile sunt independente una de cealaltă, astfel încât se acordă etichete fiecărei decizii. |
Exemplu: Joc de șah | Exemplu: Recunoașterea obiectelor |
Tipuri de întărire: Există două tipuri de Întărire:
- Pozitivă –
Întăritul pozitiv este definit ca atunci când un eveniment, care apare datorită unui anumit comportament, crește puterea și frecvența comportamentului. Cu alte cuvinte, are un efect pozitiv asupra comportamentului.Vantajele învățării prin întărire sunt:
- Maximizează performanța
- Susține schimbarea pentru o perioadă lungă de timp
Dezvantajele învățării prin întărire:
- Prea multă întărire poate duce la o supraîncărcare a stărilor care poate diminua rezultatele
- Negativă –
Raforțarea negativă este definită ca întărire a unui comportament deoarece o condiție negativă este oprită sau evitată.Avantajele învățării prin întărire:
- Crește comportamentul
- Provoacă sfidarea standardului minim de performanță
Dezavantajele învățării prin întărire:
- Nu oferă decât suficient pentru a satisface comportamentul minim
Diverse aplicații practice ale învățării prin întărire –
- RL poate fi utilizată în robotică pentru automatizarea industrială.
- RL poate fi utilizată în învățarea automată și în prelucrarea datelor
- RL poate fi utilizată pentru a crea sisteme de instruire care oferă instrucțiuni și materiale personalizate în funcție de cerințele elevilor.
RL poate fi utilizată în medii mari în următoarele situații:
- Se cunoaște un model al mediului, dar nu este disponibilă o soluție analitică;
- Se oferă doar un model de simulare a mediului (subiectul optimizării bazate pe simulare)
- Singura modalitate de a colecta informații despre mediu este de a interacționa cu acesta.
.