Reinforcement learning is een gebied van Machine Learning. Het gaat over het nemen van geschikte actie om de beloning in een bepaalde situatie te maximaliseren. Het wordt gebruikt door verschillende software en machines om het best mogelijke gedrag of pad te vinden dat het moet nemen in een specifieke situatie. Reinforcement learning verschilt van supervised learning in die zin dat bij supervised learning de trainingsgegevens de antwoordsleutel bevatten, zodat het model wordt getraind met het juiste antwoord zelf, terwijl er bij reinforcement learning geen antwoord is, maar de reinforcement agent beslist wat hij moet doen om de gegeven taak uit te voeren. Bij afwezigheid van een trainingsdataset, is het gebonden om te leren van zijn ervaring.

Voorbeeld: Het probleem is als volgt: We hebben een agent en een beloning, met daartussen vele hindernissen. De agent wordt verondersteld de best mogelijke weg te vinden om de beloning te bereiken. Het volgende probleem legt het probleem eenvoudiger uit.

In de bovenstaande afbeelding ziet u de robot, de diamant en het vuur. Het doel van de robot is om de beloning, de diamant, te bemachtigen en de hindernissen, het vuur, te vermijden. De robot leert door alle mogelijke paden te proberen en dan het pad te kiezen dat hem de beloning geeft met de minste hindernissen. Elke juiste stap levert de robot een beloning op en elke verkeerde stap trekt de beloning van de robot af. De totale beloning wordt berekend wanneer hij de uiteindelijke beloning bereikt die de diamant is.

Belangrijkste punten bij Reinforcement learning –

  • Input: De input moet een begintoestand zijn van waaruit het model zal starten
  • Output: Er zijn vele mogelijke outputs, zoals er ook verschillende oplossingen voor een bepaald probleem zijn
  • Training: De training is gebaseerd op de input, Het model zal een toestand teruggeven en de gebruiker zal beslissen om het model te belonen of te straffen op basis van zijn output.
  • Het model blijft leren.
  • De beste oplossing wordt beslist op basis van de maximale beloning.

Verschil tussen Reinforcement learning en Supervised learning:

Reinforcement learning Supervised learning
Reinforcement learning draait om het opeenvolgend nemen van beslissingen. Eenvoudig gezegd kunnen we zeggen dat de output afhangt van de toestand van de huidige input en dat de volgende input afhangt van de output van de vorige input In Supervised learning wordt de beslissing genomen over de initiële input of de input die aan het begin wordt gegeven
In Reinforcement learning is de beslissing afhankelijk, dus geven we labels aan reeksen van afhankelijke beslissingen Supervised learning zijn de beslissingen onafhankelijk van elkaar, dus worden er labels gegeven aan elke beslissing.
Voorbeeld: Schaakspel Voorbeeld: Objectherkenning

Typen Versterking: Er zijn twee soorten Reinforcement:

  1. Positive –
    Positive Reinforcement wordt gedefinieerd als wanneer een gebeurtenis, optreedt als gevolg van een bepaald gedrag, de kracht en de frequentie van het gedrag verhoogt. Met andere woorden, het heeft een positief effect op het gedrag.

    Voordelen van reinforcement learning zijn:

    • Maximaliseert Prestaties
    • Duurzame Verandering voor een lange periode

    Nadelen van reinforcement learning zijn:

    • Te veel Versterking kan leiden tot overbelasting van toestanden waardoor de resultaten afnemen
  2. Negatieve –
    Negatieve Versterking wordt gedefinieerd als versterking van een gedrag omdat een negatieve toestand wordt gestopt of vermeden.

    Voordelen van reinforcement learning:

    • Versterkt gedrag
    • Vertrouwt aan minimumnorm van prestatie

    Nadelen van reinforcement learning:

    • Het levert slechts genoeg op om aan het minimale gedrag te voldoen

Verschillende Praktische toepassingen van Reinforcement Learning –

  • RL kan gebruikt worden in robotica voor industriële automatisering.
  • RL kan worden gebruikt in machinaal leren en gegevensverwerking
  • RL kan worden gebruikt om opleidingssystemen te creëren die instructie en materiaal op maat bieden volgens de behoefte van studenten.

RL kan in grote omgevingen worden gebruikt in de volgende situaties:

  1. Een model van de omgeving is bekend, maar een analytische oplossing is niet beschikbaar;
  2. Alleen een simulatiemodel van de omgeving is gegeven (het onderwerp van simulatie-gebaseerde optimalisatie)
  3. De enige manier om informatie over de omgeving te verzamelen is door ermee te interageren.

Geef een antwoord

Het e-mailadres wordt niet gepubliceerd.