L’apprentissage par renforcement est un domaine de l’apprentissage automatique. Il s’agit de prendre des mesures appropriées pour maximiser la récompense dans une situation particulière. Il est employé par divers logiciels et machines pour trouver le meilleur comportement possible ou le chemin qu’il devrait prendre dans une situation spécifique. L’apprentissage par renforcement diffère de l’apprentissage supervisé en ce sens que, dans l’apprentissage supervisé, les données d’apprentissage contiennent la clé de réponse, de sorte que le modèle est formé avec la réponse correcte elle-même, tandis que dans l’apprentissage par renforcement, il n’y a pas de réponse, mais l’agent de renforcement décide de ce qu’il faut faire pour exécuter la tâche donnée. En l’absence d’un ensemble de données d’entraînement, il est tenu d’apprendre de son expérience.
Exemple : Le problème est le suivant : Nous avons un agent et une récompense, avec de nombreux obstacles entre les deux. L’agent est censé trouver le meilleur chemin possible pour atteindre la récompense. Le problème suivant explique plus facilement le problème.
L’image ci-dessus montre le robot, le diamant et le feu. Le but du robot est d’obtenir la récompense qui est le diamant et d’éviter les obstacles qui sont le feu. Le robot apprend en essayant tous les chemins possibles puis en choisissant le chemin qui lui donne la récompense avec le moins d’obstacles. Chaque bon pas donne une récompense au robot et chaque mauvais pas lui enlève une récompense. La récompense totale sera calculée lorsqu’il atteindra la récompense finale qui est le diamant.
Points principaux de l’apprentissage par renforcement –
- Entrée : L’entrée doit être un état initial à partir duquel le modèle va démarrer
- Sortie : Il y a beaucoup de sortie possible comme il y a une variété de solution à un problème particulier
- Formation : La formation est basée sur l’entrée, Le modèle retournera un état et l’utilisateur décidera de récompenser ou de punir le modèle en fonction de sa sortie.
- Le modèle continue à apprendre.
- La meilleure solution est décidée en fonction de la récompense maximale.
Différence entre l’apprentissage par renforcement et l’apprentissage supervisé :
L’apprentissage par renforcement | L’apprentissage supervisé |
---|---|
L’apprentissage par renforcement consiste à prendre des décisions de manière séquentielle. En termes simples, nous pouvons dire que la sortie dépend de l’état de l’entrée actuelle et que l’entrée suivante dépend de la sortie de l’entrée précédente | En apprentissage supervisé, la décision est prise sur l’entrée initiale ou l’entrée donnée au départ |
En apprentissage par renforcement, la décision est dépendante, On donne donc des étiquettes aux séquences de décisions dépendantes | En apprentissage supervisé, les décisions sont indépendantes les unes des autres, on donne donc des étiquettes à chaque décision. |
Exemple : Jeu d’échecs | Exemple : Reconnaissance d’objets |
Types de renforcement : Il existe deux types de renforcement :
- Positif –
Le renforcement positif est défini comme lorsqu’un événement, se produisant en raison d’un comportement particulier, augmente la force et la fréquence de ce comportement. En d’autres termes, il a un effet positif sur le comportement.Les avantages de l’apprentissage par renforcement sont :
- Maximise la performance
- Soutenir le changement pendant une longue période
Les inconvénients de l’apprentissage par renforcement :
- Trop de renforcement peut conduire à une surcharge d’états qui peut diminuer les résultats
- Négatif –
Le renforcement négatif est défini comme le renforcement d’un comportement parce qu’une condition négative est arrêtée ou évitée.Avantages de l’apprentissage par renforcement :
- Augmente le comportement
- Fait défier la norme minimale de performance
Avantages de l’apprentissage par renforcement :
- Il fournit seulement assez pour répondre au comportement minimum
Diverses applications pratiques de l’apprentissage par renforcement –
- L’AR peut être utilisé en robotique pour l’automatisation industrielle.
- RL peut être utilisé dans l’apprentissage automatique et le traitement des données
- RL peut être utilisé pour créer des systèmes de formation qui fournissent des instructions et des matériaux personnalisés en fonction de l’exigence des étudiants.
La LR peut être utilisée dans de grands environnements dans les situations suivantes :
- Un modèle de l’environnement est connu, mais une solution analytique n’est pas disponible ;
- Seul un modèle de simulation de l’environnement est donné (le sujet de l’optimisation basée sur la simulation)
- La seule façon de recueillir des informations sur l’environnement est d’interagir avec lui.