Reinforcement learning er et område inden for maskinlæring. Det drejer sig om at foretage passende handlinger for at maksimere belønningen i en bestemt situation. Det anvendes af forskellige programmer og maskiner til at finde den bedst mulige adfærd eller vej, som den bør tage i en bestemt situation. Forstærkende læring adskiller sig fra overvåget læring på den måde, at i overvåget læring har træningsdataene svarnøglen med sig, så modellen trænes med det korrekte svar selv, mens der i forstærkende læring ikke er noget svar, men forstærkende agent beslutter, hvad der skal gøres for at udføre den givne opgave. I mangel af et træningsdatasæt er den forpligtet til at lære af sine erfaringer.
Eksempel: Problemet er som følger: Vi har en agent og en belønning med mange forhindringer ind imellem. Det er meningen, at agenten skal finde den bedst mulige vej for at nå belønningen. Følgende problem forklarer problemet lettere.
Overstående billede viser robotten, diamanten og ilden. Robotens mål er at få belønningen, som er diamanten, og undgå forhindringerne, som er ild. Robotten lærer ved at prøve alle mulige stier og derefter vælge den sti, der giver den belønningen med færrest forhindringer. Hvert rigtigt skridt vil give robotten en belønning, og hvert forkert skridt vil trække robottens belønning fra. Den samlede belønning vil blive beregnet, når den når den endelige belønning, som er diamanten.
Hovedpunkter i Reinforcement learning –
- Input: Indgangen skal være en begyndelsestilstand, som modellen starter fra
- Output: Der er mange mulige output, da der er mange forskellige løsninger på et bestemt problem
- Træning: Modellen returnerer en tilstand, og brugeren beslutter at belønne eller straffe modellen ud fra dens output.
- Modellen fortsætter med at lære.
- Den bedste løsning bestemmes ud fra den maksimale belønning.
Forskel mellem forstærket læring og overvåget læring: Forskellen mellem forstærket læring og overvåget læring:
Reinforcement learning | Supervised learning | |
---|---|---|
Reinforcement learning handler om at træffe beslutninger sekventielt. Med enkle ord kan vi sige, at outputtet afhænger af tilstanden af det aktuelle input, og det næste input afhænger af outputtet af det foregående input | I Supervised learning træffes beslutningen på baggrund af det oprindelige input eller det input, der gives i starten | |
I Reinforcement learning er beslutningen afhængig, så vi giver etiketter til sekvenser af afhængige beslutninger | Supervised learning beslutningerne er uafhængige af hinanden, så der gives etiketter til hver beslutning. | |
Eksempel: Skakspil | Eksempel: |
Typer af forstærkning: Der er to typer af forstærkning:
- Positiv –
Positiv forstærkning er defineret som, når en begivenhed, der opstår på grund af en bestemt adfærd, øger styrken og hyppigheden af adfærden. Med andre ord har det en positiv effekt på adfærden.Fordelene ved forstærkningslæring er:
- Maximerer præstationen
- Holdbar ændring i lang tid
Ulemper ved forstærkningslæring:
- For meget forstærkning kan føre til overbelastning af tilstande, hvilket kan mindske resultaterne
- Negativ –
Negativ forstærkning er defineret som styrkelse af en adfærd, fordi en negativ tilstand stoppes eller undgås.Fordelene ved forstærkningsindlæring:
- Forbedrer adfærd
- Forsyning af trods til minimumsstandard for præstation
Ulemper ved forstærkningsindlæring:
- Det giver kun nok til at opfylde minimumsadfærd
Flere praktiske anvendelser af forstærkningslæring –
- RL kan bruges inden for robotteknologi til industriel automatisering.
- RL kan bruges inden for maskinlæring og databehandling
- RL kan bruges til at skabe uddannelsessystemer, der giver skræddersyet undervisning og materialer i overensstemmelse med elevernes behov.
RL kan anvendes i store miljøer i følgende situationer:
- Der er en model af miljøet kendt, men der findes ikke en analytisk løsning;
- Der er kun en simuleringsmodel af miljøet givet (genstand for simulationsbaseret optimering)
- Den eneste måde at indsamle oplysninger om miljøet på er at interagere med det.