Aprendizagem de reforço é uma área de Aprendizagem de Máquina. Trata-se de tomar medidas adequadas para maximizar a recompensa em uma situação particular. É empregado por vários softwares e máquinas para encontrar o melhor comportamento ou caminho que deve tomar em uma situação específica. A aprendizagem de reforço difere da aprendizagem supervisionada de uma forma que, na aprendizagem supervisionada, os dados de formação têm a chave de resposta, pelo que o modelo é treinado com a resposta correcta em si, enquanto que na aprendizagem de reforço não há resposta, mas o agente de reforço decide o que fazer para realizar a tarefa dada. Na ausência de um conjunto de dados de treinamento, ele é obrigado a aprender com sua experiência.

Exemplo: O problema é o seguinte: Temos um agente e uma recompensa, com muitos obstáculos no meio. O agente é suposto encontrar o melhor caminho possível para chegar à recompensa. O seguinte problema explica mais facilmente o problema.

> A imagem acima mostra o robô, o diamante e o fogo. O objetivo do robô é obter a recompensa que é o diamante e evitar os obstáculos que são o fogo. O robô aprende tentando todos os caminhos possíveis e depois escolhendo o caminho que lhe dá a recompensa com os menores obstáculos. Cada passo certo dará ao robô uma recompensa e cada passo errado irá subtrair a recompensa do robô. A recompensa total será calculada quando chegar à recompensa final que é o diamante.

Pontos principais no aprendizado do reforço –

  • Ingresso: A entrada deve ser um estado inicial a partir do qual o modelo começará
  • Saída: Há muitas saídas possíveis, pois há uma variedade de soluções para um problema particular
  • Treinamento: O treinamento é baseado na entrada, O modelo retornará um estado e o usuário decidirá recompensar ou punir o modelo com base em sua saída.
  • O modelo continua a aprender.
  • A melhor solução é decidida com base na recompensa máxima.

Diferença entre a aprendizagem do Reforço e a aprendizagem supervisionada:

Aprendizagem de reforço Aprendizagem supervisionada
Aprendizagem de reforço é tudo sobre tomar decisões sequencialmente. Em palavras simples podemos dizer que a saída depende do estado da entrada atual e a próxima entrada depende da saída da entrada anterior Na aprendizagem supervisionada a decisão é tomada na entrada inicial ou na entrada dada no início
Na aprendizagem reforçada a decisão de aprendizagem é dependente, por isso damos etiquetas a seqüências de decisões dependentes Aprendizagem supervisionada as decisões são independentes umas das outras por isso as etiquetas são dadas a cada decisão.
Exemplo: Jogo de xadrez Exemplo: Reconhecimento de objectos

Tipos de Reforço: Existem dois tipos de Reforço:

  1. Positivo –
    O Reforço Positivo é definido como quando um evento, ocorre devido a um determinado comportamento, aumenta a força e a frequência do comportamento. Em outras palavras, ele tem um efeito positivo sobre o comportamento.

    Vantagens da aprendizagem de reforço são:

    • Maximiza o desempenho
    • Sustenta a mudança por um longo período de tempo

    Desvantagens da aprendizagem de reforço:

    • O excesso de Reforço pode levar à sobrecarga de estados que podem diminuir os resultados
  2. Negativo –
    O Reforço Negativo é definido como reforço de um comportamento porque uma condição negativa é parada ou evitada.

    Vantagens da aprendizagem do reforço:

    • Aumento do comportamento
    • Disponibilizar o padrão mínimo de desempenho

    Desvantagens da aprendizagem do reforço:

    • Proporciona apenas o suficiente para atingir o comportamento mínimo

Várias aplicações práticas de Aprendizagem de Reforço –

  • RL pode ser usado em robótica para automação industrial.
  • RL pode ser usado na aprendizagem de máquinas e processamento de dados
  • RL pode ser usado para criar sistemas de treinamento que fornecem instruções e materiais personalizados de acordo com as exigências dos alunos.

RL pode ser usado em grandes ambientes nas seguintes situações:

  1. Um modelo do ambiente é conhecido, mas uma solução analítica não está disponível;
  2. Apenas um modelo de simulação do ambiente é dado (o assunto da otimização baseada em simulação)
  3. A única maneira de coletar informações sobre o ambiente é interagir com ele.

Deixe uma resposta

O seu endereço de email não será publicado.