O aprendizado por reforço é sobre gamificar o processo de aprendizado.
As ferramentas de aprendizado de máquina aqui usam um método de recompensa-penalidade para ensinar um sistema de IA. Se ele faz o movimento certo, é recompensado. Se comete um erro, recebe uma penalidade.
Em outras palavras, o aprendizado por reforço força um sistema a aprender e se adaptar rapidamente, ou então perde recompensas numéricas significativas. É um método de aprendizado de máquina baseado em feedback, no qual o agente de IA aprende a se comportar (corretamente) em um ambiente ao tomar ações e ver os resultados dessas ações.
Em resumo, o agente aprende com a experiência sem qualquer pré-programação e não requer supervisão humana.
O que é aprendizado por reforço?
O aprendizado por reforço (RL) é uma técnica de aprendizado de máquina que se concentra em como os agentes de IA devem tomar ações em um ambiente para alcançar os melhores resultados. Este treinamento é feito em tempo real com feedback contínuo para maximizar a possibilidade de ser recompensado.
É um dos três tipos básicos de aprendizado de máquina. Os outros dois são aprendizado supervisionado e aprendizado não supervisionado.
O aprendizado por reforço permite que uma máquina aprenda com seus erros, semelhante a como os humanos fazem. É um tipo de aprendizado de máquina no qual a máquina aprende a resolver um problema usando tentativa e erro. Além disso, a máquina aprende com suas ações, ao contrário do aprendizado supervisionado, onde dados históricos desempenham um papel crítico.
O sistema de IA que passa pelo processo de aprendizado é chamado de agente ou aprendiz. O sistema de aprendizado explora e observa o ambiente ao seu redor, assim como nós. Se o agente realiza a ação correta, recebe feedback positivo ou uma recompensa positiva. Se toma uma ação adversa, recebe feedback negativo ou uma recompensa negativa.
Características notáveis do aprendizado por reforço (RL) são:
- O tempo desempenha um papel crítico nos problemas de RL.
- A tomada de decisão do agente é sequencial.
- Não há um supervisor, e o agente não recebe instruções. Existem apenas recompensas.
- As ações do agente afetam diretamente os dados subsequentes que ele recebe.
- O agente é recompensado (positiva ou negativamente) por cada ação.
- A melhor solução para um problema é decidida com base na recompensa máxima.
O objetivo do aprendizado por reforço é escolher a melhor ação conhecida para qualquer estado dado. Isso também significa que as ações devem ser classificadas e atribuídas valores relativos umas às outras. Como a melhor ação depende do estado atual do agente, o foco está mais nos valores dos pares estado-ação.
No entanto, o aprendizado por reforço nem sempre é a resposta para todas as situações. Por exemplo, se você tem dados suficientes para resolver um problema, o aprendizado supervisionado será ideal. Além disso, o aprendizado por reforço é um processo demorado e requer muitos recursos computacionais.
Relacionado: Aprenda sobre aprendizado por reforço a partir de feedback humano (RLHF) e como ele ajuda a treinar grandes modelos de linguagem (LLMs).
Elementos do aprendizado por reforço
Além do agente e do ambiente, há quatro elementos críticos no aprendizado por reforço: política, sinal de recompensa, função de valor e modelo.
1. Política
A política é a estratégia que o agente usa para determinar a ação seguinte com base no estado atual. É um dos elementos críticos do aprendizado por reforço e pode, por si só, definir o comportamento do agente.
Uma política mapeia os estados percebidos do ambiente para as ações tomadas nesses estados particulares. Pode ser determinística ou estocástica e também pode ser uma função simples ou uma tabela de consulta.
2. Sinal de recompensa
Em cada estado, o agente recebe um sinal imediato do ambiente chamado sinal de recompensa ou simplesmente recompensa. Como mencionado anteriormente, as recompensas podem ser positivas ou negativas, dependendo das ações do agente. O sinal de recompensa também pode forçar o agente a mudar a política. Por exemplo, se as ações do agente levam a recompensas negativas, o agente será forçado a mudar a política em prol de sua recompensa total.
3. Função de valor
A função de valor fornece informações sobre quão favoráveis são ações específicas e quanto de recompensa o agente pode esperar. Simplificando, a função de valor determina quão bom é um estado para o agente estar. A função de valor depende da política do agente e da recompensa, e seu objetivo é estimar valores para obter mais recompensas.
4. Modelo
O modelo imita o comportamento do ambiente. Usando um modelo, você pode fazer inferências sobre o ambiente e como ele se comportará. Por exemplo, se um estado e uma ação forem fornecidos, você pode usar um modelo para prever o próximo estado e recompensa.
Como o modelo permite que você considere todas as situações futuras antes de experimentá-las, você pode usá-lo para planejamento. A abordagem usada para resolver problemas de aprendizado por reforço com a ajuda do modelo é chamada de aprendizado por reforço baseado em modelo. Por outro lado, se você tentar resolver problemas de RL sem usar um modelo, é chamado de aprendizado por reforço sem modelo.
Enquanto o aprendizado baseado em modelo tenta escolher a política ideal com base no modelo aprendido, o aprendizado sem modelo exige que o agente aprenda com a experiência de tentativa e erro. Estatisticamente, os métodos sem modelo são menos eficientes do que os métodos baseados em modelo.
Tipos de aprendizado por reforço
Existem dois tipos de métodos de aprendizado por reforço: reforço positivo e reforço negativo.
Reforço positivo
O aprendizado por reforço positivo é o processo de encorajar ou adicionar algo quando um padrão de comportamento esperado é exibido para aumentar a probabilidade de o mesmo comportamento ser repetido.
Por exemplo, se uma criança passa em um teste com notas impressionantes, ela pode ser reforçada positivamente com um sorvete.
Reforço negativo
O reforço negativo envolve aumentar as chances de um comportamento específico ocorrer novamente removendo a condição negativa.
Por exemplo, se uma criança falha em um teste, ela pode ser reforçada negativamente ao retirar seus videogames. Isso não é exatamente punir a criança por falhar, mas remover uma condição negativa (neste caso, videogames) que pode ter causado a falha no teste.
Como funciona o aprendizado por reforço?
Em termos simples, o aprendizado por reforço é a busca de um agente para maximizar a recompensa que recebe. Não há humano para supervisionar o processo de aprendizado, e o agente toma decisões sequenciais.
Ao contrário do aprendizado supervisionado, o aprendizado por reforço não exige que você rotule dados ou corrija ações subótimas. Em vez disso, o objetivo é encontrar um equilíbrio entre exploração e exploração.
Exploração é quando o agente aprende saindo de sua zona de conforto, e isso pode colocar sua recompensa em risco. A exploração é frequentemente desafiadora e é como entrar em território desconhecido. Pense nisso como experimentar um restaurante que você nunca foi. No melhor cenário, você pode acabar descobrindo um novo restaurante favorito e dando um presente ao seu paladar. No pior cenário, você pode acabar doente devido a comida mal cozida.
Exploração é quando o agente permanece em sua zona de conforto e explora o conhecimento atualmente disponível. É livre de riscos, pois não há chance de atrair uma penalidade e o agente continua repetindo a mesma coisa. É como visitar seu restaurante favorito todos os dias e não estar aberto a novas experiências. Claro, é uma escolha segura, mas pode haver um restaurante melhor por aí.
O aprendizado por reforço é um equilíbrio entre exploração e exploração. Os algoritmos de RL podem ser feitos para explorar e explorar em graus variados.
O aprendizado por reforço é um processo iterativo. O agente começa sem nenhuma dica sobre as recompensas que pode esperar de pares estado-ação específicos. Ele aprende à medida que passa por esses estados várias vezes e eventualmente se torna adepto. Em resumo, o agente começa como um novato e lentamente se torna um profissional.
Exemplo de aprendizado por reforço
Como o aprendizado por reforço é como a maioria dos organismos aprende, vamos ver como um cachorro aprende novos truques e compará-los com esse tipo de aprendizado de máquina.
Charlie é um Golden Retriever. Como outros cães, ele não entende inglês ou qualquer linguagem humana propriamente dita, embora possa compreender a entonação e a linguagem corporal humana com excelente precisão.
Isso significa que não podemos instruir diretamente Charlie sobre o que fazer, mas podemos usar petiscos para atraí-lo a fazer algo. Pode ser qualquer coisa tão simples quanto sentar ou rolar sob comando ou apertar as mãos. Para este exemplo, vamos considerar o "ato de apertar as mãos".
Como você provavelmente sabe, as regras são bem simples. Se Charlie apertar as mãos ou fizer algo semelhante, ele ganha um petisco. Se ele não obedecer ou se comportar mal, não receberá nenhum petisco.
Em outras palavras, se Charlie realizar a ação desejada, ele ganha um petisco; caso contrário, nenhum.
Após algumas iterações de "petisco ou sem petisco", Charlie reconhecerá o conjunto certo de ações a serem realizadas para ganhar um petisco. Quando ele se comportou mal, percebeu que tais ações desfavoráveis levaram a consequências desfavoráveis. No futuro, quando Charlie enfrentar situações semelhantes, ele saberá qual é a ação mais desejável a ser tomada para maximizar o petisco ou recompensa.
“RL significa que a IA agora pode ser aplicada a problemas de tomada de decisão sequencial para alcançar objetivos estratégicos, em oposição a tarefas perceptivas únicas como reconhecimento de imagem.”
Chris Nicholson
Fundador e CEO da Pathmind
Aplicando o conceito de aprendizado por reforço a este exemplo, Charlie se torna o agente. A casa em que ele vive se torna seu ambiente, e o petisco que ele recebe é sua recompensa. Sentar é um estado, assim como apertar as mãos. A transição de sentar para apertar as mãos pode ser considerada uma ação.
Sua linguagem corporal e entonação desencadeiam a ação (ou, neste contexto, reação). O método de selecionar uma ação com base no estado que ajudará você a obter o melhor resultado é chamado de política.
Sempre que Charlie faz a ação desejada e transita de um estado (sentado) para outro (apertando as mãos), ele recebe um petisco. Como Charlie é um bom menino, não o punimos se ele se comportar mal. Em vez de uma penalidade ou punição, ele não receberá uma recompensa se não realizar a ação desejada, o que é algo mais próximo de uma penalidade.
Isso é muito semelhante a como um agente aprende no aprendizado por reforço.
Aprendizado por reforço em jogos
Os jogos e o aprendizado por reforço compartilham uma longa história. Os jogos são os domínios ótimos e desafiadores para testar algoritmos de aprendizado por reforço.
Todos nós jogamos jogos de computador ou videogames em algum momento de nossas vidas. Pode ter sido um dos jogos de 8 bits do Atari, um jogo de console como Halo ou um jogo de tabuleiro como xadrez.
Independentemente do jogo que você jogou, pode ter levado algumas tentativas para entender as regras antes de finalmente vencer um jogo. Em resumo, leva tempo, estratégia e prática para se tornar um profissional. E, claro, há motivação na forma de pontos ou recompensas no jogo. Você ganha uma recompensa positiva quando completa uma missão. Você marca pontos negativos se cair de um penhasco ou for preso porque seu nível de procurado está mais alto do que deveria estar.
Independentemente da complexidade do jogo, os conceitos acima permanecem universais. Se seu comportamento no jogo estiver alinhado com as instruções do jogo, você ganhará pontos e vencerá. Caso contrário, você perderá pontos e falhará. As mesmas regras se aplicam ao aprendizado por reforço.
Vamos dar uma olhada em como você pode ensinar uma máquina a jogar jogos.
O cérebro humano pode naturalmente reconhecer o propósito de um jogo, mas é difícil para as máquinas. Você poderia aplicar aprendizado supervisionado para ensinar máquinas, mas isso requer dados de treinamento de jogadores humanos anteriores. Como nosso conjunto de habilidades eventualmente atingirá um platô, isso significa que o agente de RL nunca poderia ficar "melhor" do que um humano.
No aprendizado por reforço, não há conjunto de dados de treinamento nem valor de saída. O agente pode competir naturalmente, falhar e aprender com seus erros com base nos valores de recompensa e penalidade. Vamos pegar o jogo de Pong como exemplo.
.png)
Fonte: ponggame.org
O objetivo do Pong é rebater a bola com sua raquete para que ela acabe atrás do oponente. Inicialmente, o agente não entenderá isso e falhará inúmeras vezes. Mas em algum momento, ele fará um movimento correto e será reforçado positivamente para repetir a ação.
Após vários jogos de Pong, o agente de aprendizado por reforço deve ter uma compreensão geral da probabilidade de mover para CIMA com sucesso versus a probabilidade de mover para BAIXO. Essas ações são reforçadas até que a recompensa total seja maximizada. Em termos de Pong, isso significa vencer o jogo sem que seu oponente ganhe um único ponto.
Aprendizado por reforço e AlphaGo
AlphaGo é o padrão ouro do aprendizado por reforço avançado em jogos. Desenvolvido pela DeepMind, este programa de aprendizado profundo se tornou o melhor jogador de Go do mundo ao derrotar Ke Jie, um dos melhores jogadores de Go do mundo.
Aqui está uma rápida visão de como o AlphaGo se tornou o campeão mundial:
- AlphaGo, como qualquer agente de aprendizado, começou sem conhecimento do jogo.
- Em seguida, foi alimentado com a estrutura básica e estratégia do jogo usando milhares de exemplos de jogadores amadores e profissionais.
- Alcançou um alto nível de habilidade em três dias, e os testadores começaram a jogar o programa contra si mesmo.
- Isso levou a iteração constante, reforço e emparelhamento com algoritmos de busca.
- AlphaGo logo se tornou uma versão diferente e mais avançada de si mesmo – Fan, Lee, Master e, finalmente, Zero.
- AlphaGo Master competiu contra o melhor jogador humano, o campeão mundial 18 vezes Ke Jie.
Em apenas 40 dias de auto-treinamento, AlphaGo Zero superou o AlphaGo Master e alcançou uma classificação Elo acima de 5.000, que é essencialmente níveis sobre-humanos.
Processo de decisão de Markov: Representando RL matematicamente
O processo de decisão de Markov (MDP) é como os problemas de aprendizado por reforço são representados matematicamente. É usado para formalizar problemas de RL, e se o ambiente for totalmente observável, pode ser modelado usando MDP.
No MDP, os seguintes parâmetros são usados para obter uma solução para um problema de aprendizado por reforço:
- Conjunto de estados possíveis - S
- Conjunto de modelos
- Conjunto de ações possíveis- A
- Recompensa - R
- Política
- Valor - V
O estado do agente pode ser representado usando o estado de Markov. O estado de Markov segue a propriedade de Markov, o que significa que o estado futuro é independente do passado e pode ser definido apenas com o presente.
Suponha que o agente de RL esteja em um ambiente de labirinto composto por quatro linhas e quatro colunas, o que totaliza 16 blocos. Se o agente estiver em um bloco específico e seus dois blocos adjacentes tiverem o mesmo valor atribuído (não confundir com recompensa), será difícil para o agente escolher entre eles.
Em tais situações, a equação de Bellman é usada. É um constituinte crítico do aprendizado por reforço e ajuda a resolver o MDP. Resolver significa encontrar a política ideal e as funções de valor.
Elementos-chave da equação de Bellman são:
- Ação
- Estado
- Recompensa
- Fator de desconto
A equação de Bellman também está associada à programação dinâmica. É usada para calcular os valores de um problema de decisão em um determinado ponto, considerando os valores dos estados anteriores. Com a equação, você pode dividir problemas complexos em subproblemas mais simples e recursivos e encontrar soluções ótimas.
Abordagens para implementar aprendizado por reforço
Geralmente, existem três maneiras de implementar um algoritmo de aprendizado por reforço: baseado em valor, baseado em política ou baseado em modelo. Essas abordagens determinam como o agente tomará ações e interagirá com o ambiente.
Aprendizado por reforço baseado em valor
Esta abordagem é sobre encontrar a função de valor ideal, que é essencialmente o valor máximo em um estado sob qualquer política.
Aprendizado por reforço baseado em política
Nesta abordagem, o agente tenta desenvolver uma política para que a ação realizada em cada estado ajude a maximizar a recompensa futura.
A abordagem baseada em política pode ser dividida em duas:
- Determinística: Nesta subdivisão, a mesma ação é produzida pela política em qualquer estado.
- Estocástica: Aqui, a probabilidade determina a ação produzida.
Aprendizado por reforço baseado em modelo
Nesta abordagem, um modelo virtual é criado para cada ambiente, e o agente o explora para aprender. Como a representação do modelo é diferente para cada ambiente, não há um algoritmo ou solução de RL específico para esta abordagem.
Algoritmos de aprendizado por reforço
Os algoritmos de aprendizado por reforço podem ser classificados em dois: algoritmos de RL sem modelo e algoritmos de RL baseados em modelo. Q-learning e deep Q learning são exemplos de algoritmos de RL sem modelo.
Q-learning
Q-learning é um método de RL baseado em valor para fornecer informações. É usado para aprendizado por diferença temporal e determina quão boa é uma ação em um estado particular. O Q-learning é um aprendiz fora da política, o que significa que o agente aprenderá a função de valor com base na ação derivada de outra política.
O que é aprendizado por diferença temporal?
O aprendizado por diferença temporal é uma abordagem para prever uma quantidade que depende dos valores futuros de um sinal particular.
O Q-learning começa com a inicialização da tabela Q. Em seguida, o agente seleciona uma ação e a executa. A recompensa pela ação é medida e, em seguida, a tabela Q é atualizada. Uma tabela Q é uma tabela ou matriz criada durante o Q-learning. Após cada ação, a tabela é atualizada.
No Q-learning, o objetivo do agente é maximizar o valor de Q. Neste método, o agente se esforça para encontrar a melhor ação a ser tomada em um estado particular. O Q significa qualidade, que indica a qualidade da ação tomada pelo agente.
Método de Monte Carlo
O método de Monte Carlo (MC) é uma das melhores maneiras de um agente obter a melhor política para ganhar a maior recompensa cumulativa. Este método pode ser usado apenas em tarefas episódicas, que são tarefas que têm um fim definido.
No método MC, o agente aprende diretamente com episódios de experiência. Isso também significa que o agente inicialmente não tem ideia de qual ação leva à maior recompensa, então as ações são escolhidas aleatoriamente. Após selecionar um monte de políticas aleatórias, o agente se tornará ciente das políticas que levam às maiores recompensas e se tornará melhor em escolher políticas.
SARSA
State-action-reward-state-action (SARSA) é um método de aprendizado por diferença temporal na política. Isso significa que ele aprende a função de valor com base na ação atual derivada da política atualmente usada.
SARSA reflete o fato de que a função principal usada para atualizar o valor Q depende do estado atual do agente (S), da ação escolhida (A), da recompensa que ele obtém pela ação (R), do estado em que o agente entra após realizar a ação (S) e da ação que ele realiza no novo estado (A).
Rede neural de Q profundo
Rede neural de Q profundo (DQN) é o Q-learning com a ajuda de redes neurais. É ideal quando os espaços de estado e ação são significativos, pois definir uma tabela Q será uma tarefa complexa e demorada. Em vez de uma tabela Q, redes neurais determinam os valores Q para cada ação com base no estado.
Aplicações do aprendizado por reforço
O aprendizado por reforço é usado para ensinar sistemas de IA a jogar jogos. E eles estão ficando melhores nisso exponencialmente. Além disso, é usado em finanças para avaliar estratégias de negociação e também pode ser usado em química para otimizar reações químicas. As empresas também podem usar aprendizado por reforço profundo para ensinar robôs a pegar e colocar mercadorias corretamente.
Aqui estão mais aplicações adicionais de RL:
- Planejamento de estratégia de negócios
- Controle de aeronaves e controle de movimento de robôs
- Automação industrial
- Processamento de dados
- NLP aumentada
- Sistemas de recomendação
- Lances e publicidade
- Controle de semáforos
Desafios do aprendizado por reforço
O aprendizado por reforço é um tipo poderoso de aprendizado de máquina. No entanto, também tem alguns desafios relacionados.
Primeiro, o aprendizado por reforço ocorre em um ambiente de retorno atrasado. Se a tarefa em questão for complexa, mais tempo levará para o agente aprender e alcançar recompensas máximas.
Por exemplo, um agente pode levar algumas horas para aprender o jogo de Pong, mas o AlphaZero levou 40 dias e milhões de jogos para dominar o Go. Embora ainda seja uma conquista notável, parece uma curva de aprendizado lenta ao olhar para aplicações do mundo real, como robótica.
Escalar ou ajustar as redes neurais que controlam o agente também é um grande desafio. Não há outros meios de comunicação com o agente além das recompensas e penalidades. Isso também significa que o agente pode encontrar uma maneira de maximizar as recompensas sem realmente completar a missão atribuída.
Glossário de aprendizado por reforço
Inteligência artificial pode ser um tópico bastante avassalador, especialmente quando você aprende novos termos. Aqui está uma revisão de alguns dos termos usados no aprendizado por reforço e o que eles significam.
- Agente: O sistema de IA que passa pelo processo de aprendizado. Também chamado de aprendiz ou tomador de decisões. O algoritmo é o agente.
- Ação: O conjunto de todos os movimentos possíveis que um agente pode fazer.
- Ambiente: O mundo através do qual o agente se move e recebe feedback. O ambiente recebe o estado atual e a ação do agente como entrada e, em seguida, fornece a recompensa e o próximo estado.
- Estado: Uma situação imediata em que o agente se encontra. Pode ser um momento ou posição específica no ambiente. Também pode ser uma situação atual e futura. Em palavras simples, é o estado do agente no ambiente.
- Recompensa: Para cada ação realizada, o agente recebe uma recompensa do ambiente. Uma recompensa pode ser positiva ou negativa, dependendo da ação.
- Política: A estratégia que o agente usa para determinar a próxima ação com base no estado atual. Em outras palavras, mapeia estados para ações para que o agente possa escolher a ação com a maior recompensa.
- Modelo: A visão do agente sobre o ambiente. Mapeia os pares estado-ação para as distribuições de probabilidade sobre estados. No entanto, nem todo agente de RL usa um modelo de seu ambiente.
- Função de valor: Em termos simples, a função de valor representa quão favorável é um estado para o agente. O valor do estado representa a recompensa de longo prazo que o agente receberá começando daquele estado particular para executar uma política específica.
- Fator de desconto: O fator de desconto (γ) determina o quanto o agente se importa com recompensas no futuro distante em comparação com aquelas no futuro imediato. É um valor entre zero e um. Se o fator de desconto for igual a 0, o agente aprenderá apenas sobre ações que produzem recompensas imediatas. Se for igual a 1, o agente avaliará suas ações com base na soma de suas recompensas futuras.
- Programação dinâmica (DP): Uma técnica algorítmica usada para resolver um problema de otimização dividindo-o em subproblemas. Segue o conceito de que a solução ótima para o problema geral depende da solução ótima para seus subproblemas.
Se esses termos o sobrecarregarem, pense sobre o que seria o aprendizado por reforço na vida real. O agente é você, e o ambiente são seus arredores e as leis da física, como a gravidade.
Se você está aprendendo a andar, o estado pode ser a posição de suas pernas. Se você tomar a melhor ação, receberá uma recompensa, que é andar alguns passos. Caso contrário, você recebe uma penalidade, que neste caso significa que você cai e se machuca.
É hora do jogo para os robôs
Os humanos adoram recompensas. A gamificação é a maneira mais fácil de nos tentar a completar uma tarefa sem nos sentirmos desmotivados. É por isso que praticar um esporte parece mais divertido do que malhar em uma academia.
O aprendizado por reforço está atraindo agentes de IA a tomar as decisões certas em troca de recompensas. Ainda não sabemos o que os robôs pensam sobre a gamificação, mas esperamos que eles gostem.
Alguns dizem que é a última invenção de que precisaremos. Alguns acham que é um objetivo inatingível. É chamado de inteligência geral artificial e, de fato, seria nossa maior invenção ou a maior ameaça de todas.

Amal Joby
Amal is a Research Analyst at G2 researching the cybersecurity, blockchain, and machine learning space. He's fascinated by the human mind and hopes to decipher it in its entirety one day. In his free time, you can find him reading books, obsessing over sci-fi movies, or fighting the urge to have a slice of pizza.
