Conceitos
Por que esses conceitos importam em Aprendizado por Reforço
O aprendizado por reforço (reinforcement learning, RL) trata de tomar sequências de decisões sob incerteza para maximizar a recompensa de longo prazo. Quase todo método de aprendizado por reforço — seja Q-learning tabular, aprendizado por reforço profundo (deep RL) ou ator-crítico (actor-critic) — pode ser explicado usando quatro ideias centrais:
- MDPs: um modelo matemático de um ambiente com dinâmica
- Políticas: como um agente escolhe ações
- Funções de valor: quão bons são estados/ações sob uma política
- Intuição de Bellman: como o valor em horizontes longos pode ser computado a partir de uma olhada de um passo à frente
Esses conceitos são a “linguagem comum” que conecta teoria (controle ótimo, programação dinâmica) à prática (treinar agentes para jogos, robótica, recomendações). Tópicos mais avançados como Exploração vs Exploitação, Métodos, RL Baseado em Modelo e RL Offline se apoiam nessa base.
Processos de Decisão de Markov (MDPs)
Um MDP (Markov Decision Process) é o modelo formal padrão para aprendizado por reforço quando o ambiente é totalmente observável e satisfaz a propriedade de Markov.
A tupla do MDP
Um MDP é tipicamente definido como uma tupla:
[ (\mathcal{S}, \mathcal{A}, P, R, \gamma) ]
- Estados (\mathcal{S}): uma representação do ambiente em um passo de tempo (por exemplo, a posição do tabuleiro de xadrez).
- Ações (\mathcal{A}): o que o agente pode fazer (por exemplo, mover uma peça).
- Dinâmica de transição (P(s' \mid s, a)): probabilidade do próximo estado dado o estado atual e a ação.
- Função de recompensa (R(s, a, s')) (ou (R(s,a))): feedback escalar imediato.
- Fator de desconto (\gamma \in [0,1)): o quanto recompensas futuras importam.
Um modelo mental útil: o agente repetidamente vivencia
[ s_t \rightarrow a_t \rightarrow (r_{t+1}, s_{t+1}) ]
e tenta escolher ações que maximizem a recompensa total futura.
A propriedade de Markov (por que “estado” importa)
O “Markov” em MDP significa:
O futuro é condicionalmente independente do passado dado o estado presente.
Formalmente:
[ P(s_{t+1} \mid s_t, a_t, s_{t-1}, a_{t-1}, \dots) = P(s_{t+1} \mid s_t, a_t) ]
Isso tem menos a ver com o mundo ser sem memória e mais com escolher uma representação de estado que resuma toda a informação relevante. Por exemplo:
- Em navegação robótica, ((x, y, \text{heading}, \text{velocity})) pode ser Markoviano.
- Um único quadro de câmera muitas vezes não é Markoviano para muitas tarefas (a velocidade está faltando), motivando quadros empilhados ou políticas recorrentes.
Se a propriedade de Markov não se sustenta porque o agente não consegue observar o estado subjacente completo, o modelo correto é um POMDP (MDP parcialmente observável). Muitos sistemas práticos de aprendizado por reforço ainda usam o formalismo de MDP, mas aprendem uma incorporação (embedding) semelhante a estado com recorrência ou atenção.
Tarefas episódicas vs contínuas, estados terminais
Dois tipos comuns de tarefa:
- Episódicas: há um estado terminal (por exemplo, o jogo termina, o robô alcança o objetivo).
- Contínuas: o processo roda indefinidamente (por exemplo, alocação de recursos de servidor).
Estados terminais frequentemente são modelados como absorventes: uma vez que você entra neles, permanece ali e não recebe mais recompensa.
Retornos e desconto
O aprendizado por reforço otimiza o retorno, a soma das recompensas futuras descontadas:
[ G_t = \sum_{k=0}^{\infty} \gamma^k r_{t+k+1} ]
- Se (\gamma = 0): o agente é míope (só recompensa imediata).
- Se (\gamma) é próximo de 1: o agente se importa com resultados de longo prazo.
O desconto tem benefícios tanto de modelagem quanto matemáticos:
- Ele codifica preferência temporal (recompensa mais cedo é melhor).
- Ele faz muitos operadores de Bellman serem contrações, permitindo garantias de convergência em cenários clássicos.
Exemplo prático: um pequeno gridworld
Imagine uma grade onde:
- Estados são posições do agente ((x,y))
- Ações são {cima, baixo, esquerda, direita}
- Recompensa é +1 em uma célula objetivo, 0 caso contrário
- Bater em uma parede mantém você no lugar (estocasticidade opcional)
- O episódio termina no objetivo
Este é um MDP clássico: o próximo estado depende apenas da posição atual e do movimento escolhido.
Como bandits se relacionam (um caso especial)
Um bandido multi-braços (multi-armed bandit) pode ser visto como um MDP com:
- um único estado (ou nenhum estado significativo),
- nenhuma dinâmica de longo prazo,
- recompensa que depende apenas da ação escolhida.
É por isso que bandits frequentemente são tratados separadamente; veja Bandits.
Políticas: como o agente se comporta
Uma política diz ao agente o que fazer em cada estado.
Políticas determinísticas e estocásticas
- Determinística: (a = \pi(s))
- Estocástica: (\pi(a \mid s)), uma distribuição de probabilidade sobre ações
Políticas estocásticas são comuns porque:
- apoiam exploração de forma natural,
- lidam com situações ambíguas (múltiplas boas ações),
- são centrais em métodos de gradiente de política.
Políticas estacionárias vs dependentes do tempo
A maior parte da teoria e dos algoritmos de aprendizado por reforço foca em políticas estacionárias: o mesmo mapeamento (\pi(\cdot \mid s)) é usado em todo passo de tempo. Em um MDP, sempre existe uma política estacionária ótima sob suposições típicas.
Políticas práticas de exploração
Duas estratégias de exploração amplamente usadas:
(\epsilon)-greedy (comum com Q-learning):
- com probabilidade (\epsilon): ação aleatória
- caso contrário: toma a ação gulosa (melhor valor estimado)
Exploração softmax / Boltzmann:
- escolhe a ação com probabilidade proporcional a (\exp(Q(s,a)/\tau))
Exploração é um tópico profundo por si só; veja Exploração vs Exploitação.
Funções de valor: medindo “quão boas” as coisas são
Funções de valor atribuem o retorno esperado de longo prazo a estados ou pares estado-ação.
Função valor de estado \(V^\pi(s)\)
Dada uma política (\pi), o valor de estado é:
[ V^\pi(s) = \mathbb{E}_\pi \left[ G_t \mid s_t = s \right] ]
Interpretação: se você começa no estado (s) e segue a política (\pi), quanta recompensa você espera acumular (com desconto)?
Função valor de ação \(Q^\pi(s,a)\)
O valor de ação é:
[ Q^\pi(s,a) = \mathbb{E}_\pi \left[ G_t \mid s_t = s, a_t = a \right] ]
Interpretação: quão bom é tomar a ação (a) no estado (s), e então continuar com a política (\pi)?
Em muitos algoritmos de controle, (Q) é mais diretamente útil porque selecionar ações é o problema central.
Função vantagem \(A^\pi(s,a)\)
A vantagem compara uma ação ao comportamento médio sob a política:
[ A^\pi(s,a) = Q^\pi(s,a) - V^\pi(s) ]
Vantagem é central em métodos ator-crítico porque reduz variância e foca o aprendizado em ações “melhores do que o esperado”.
Para que as funções de valor são usadas na prática
- Avaliação de política: estimar quão boa é uma política fixa (por exemplo, uma política de recomendação em produção).
- Melhoria de política: derivar uma política melhor agindo de forma gulosa em relação ao (Q) estimado.
- Atribuição de crédito (credit assignment): propagar recompensas atrasadas de volta para decisões anteriores.
- Planejamento: computar valores a partir de um modelo conhecido (programação dinâmica).
- Aprendizado: aproximar valores a partir de experiência amostrada (aprendizado por diferença temporal).
Em aprendizado por reforço profundo, funções de valor geralmente são aproximadas por redes neurais (por exemplo, DQN aprende (Q_\theta(s,a))), o que introduz desafios de estabilidade, mas escala para observações de alta dimensionalidade.
Intuição de Bellman: valor de longo horizonte a partir de uma olhada de um passo à frente
As equações de Bellman formalizam uma ideia simples, porém poderosa:
O valor do “agora” é igual à recompensa imediata mais o valor descontado do “próximo”, em média sobre a incerteza.
Essa é a base da programação dinâmica, do aprendizado por diferença temporal e de muitas atualizações em aprendizado por reforço.
Equação de expectativa de Bellman (para uma política fixa)
Para uma política (\pi):
[ V^\pi(s) = \mathbb{E}_{a \sim \pi(\cdot \mid s),, s' \sim P(\cdot \mid s,a)} \left[ R(s,a,s') + \gamma V^\pi(s') \right] ]
E para (Q^\pi):
[ Q^\pi(s,a) = \mathbb{E}{s' \sim P(\cdot \mid s,a)} \left[ R(s,a,s') + \gamma \mathbb{E}{a' \sim \pi(\cdot \mid s')}[Q^\pi(s',a')] \right] ]
Isto é uma relação de consistência: valores devem concordar com o “recompensa de um passo + continuação descontada” esperado.
Equação de otimalidade de Bellman (para a melhor política possível)
Defina as funções de valor ótimas:
- (V^*(s) = \max_\pi V^\pi(s))
- (Q^*(s,a) = \max_\pi Q^\pi(s,a))
Elas satisfazem:
[ V^(s) = \max_a \mathbb{E}_{s'}\left[ R(s,a,s') + \gamma V^(s') \right] ]
[ Q^(s,a) = \mathbb{E}{s'}\left[ R(s,a,s') + \gamma \max{a'} Q^(s',a') \right] ]
Essa equação explica por que a seleção gulosa de ações funciona uma vez que você conhece os valores ótimos: escolha a ação que maximiza a recompensa imediata esperada mais a continuação ótima.
“Backups de Bellman” como atualizações locais
Um backup de Bellman atualiza uma estimativa de valor usando estimativas de sucessores.
Por exemplo, um backup comum para (V):
[ V(s) \leftarrow \mathbb{E}[r + \gamma V(s')] ]
E para controle ótimo com (Q):
[ Q(s,a) \leftarrow \mathbb{E}[r + \gamma \max_{a'} Q(s',a')] ]
Essa é a intuição central por trás de muitos algoritmos de aprendizado por reforço: melhorar estimativas impondo repetidamente consistência de Bellman.
Um pequeno exemplo numérico (olhada de um passo à frente)
Suponha que a partir do estado (s), tomar a ação (a) sempre leva a (s') com recompensa 2, e você estima (V(s') = 10) com (\gamma=0.9). Então o valor “com backup” de tomar (a) é:
[ 2 + 0.9 \cdot 10 = 11 ]
Mesmo que o futuro de longo prazo seja complexo, a ideia de Bellman o comprime em um cálculo de um passo mais um valor armazenado do futuro.
Por que atualizações de Bellman convergem (em cenários clássicos)
Em MDPs finitos com (\gamma < 1), o operador de Bellman é uma contração sob normas adequadas, o que significa que backups repetidos tendem a convergir para um ponto fixo único (o verdadeiro (V^\pi) ou (V^*)). Isso sustenta as garantias para programação dinâmica clássica.
No aprendizado por reforço profundo moderno, a mesma intuição se aplica, mas aproximação por função, bootstrapping e aprendizado fora de política podem desestabilizar o treinamento — um motivo pelo qual algoritmos incluem redes-alvo, buffers de replay e outros estabilizadores.
Da teoria à prática: planejamento vs aprendizado
Uma distinção prática chave é se você conhece o modelo (P, R).
Planejamento (modelo conhecido)
Se você consegue consultar ou computar (P(s'|s,a)) e (R), você consegue computar valores por programação dinâmica.
Iteração de valor (computar (V^*) diretamente via backups de otimalidade):
# Tabular value iteration (conceptual)
V = {s: 0.0 for s in S}
for _ in range(num_iterations):
V_new = {}
for s in S:
V_new[s] = max(
sum(P[s,a,s2] * (R[s,a,s2] + gamma * V[s2]) for s2 in S)
for a in A
)
V = V_new
Iteração de política alterna:
- avaliar a política atual ((V^\pi)),
- melhorá-la (torná-la gulosa em relação aos valores).
Planejamento é central em robótica e pesquisa operacional, e se torna especialmente poderoso quando combinado com modelos aprendidos; veja RL Baseado em Modelo.
Aprendizado (modelo desconhecido)
Na maioria dos problemas de aprendizado por reforço, você não conhece as transições e deve aprender a partir da experiência. As equações de Bellman ainda orientam o aprendizado, mas as expectativas são substituídas por amostras.
Um alvo genérico de diferença temporal (temporal-difference, TD) para avaliação de política:
[ \text{target} = r + \gamma V(s') ]
Um alvo clássico de controle (como em Q-learning):
[ \text{target} = r + \gamma \max_{a'} Q(s',a') ]
Essas ideias levam a famílias de algoritmos cobertas em Métodos, incluindo:
- aprendizado baseado em valor (Q-learning, DQN),
- gradientes de política (otimizar (\pi) diretamente),
- ator-crítico (aprender (\pi) e uma função de valor em conjunto).
Aproximação por função e aprendizado por reforço profundo
Quando (\mathcal{S}) é enorme (imagens, sensores contínuos), valores tabulares são impossíveis. Em vez disso, aproximamos:
- (V(s) \approx V_\theta(s))
- (Q(s,a) \approx Q_\theta(s,a))
- (\pi(a|s) \approx \pi_\theta(a|s))
Redes profundas tornam o aprendizado por reforço escalável, mas introduzem desafios:
- mudança de distribuição (distribution shift) (dados em política vs fora de política),
- instabilidade de bootstrapping (bootstrapping instability) (alvos de aprendizado dependem da rede atual),
- dificuldade de exploração em recompensas esparsas.
Isso é tratado por escolhas de projeto como buffers de replay, redes-alvo, bônus de entropia e estratégias cuidadosas de coleta de dados.
Armadilhas comuns e extensões da visão de MDP
Projeto de estado e observabilidade parcial
Se observações não satisfazem a propriedade de Markov, aprendizado “estilo MDP” pode falhar (por exemplo, quadros de Atari que piscam, velocidades ocultas). Correções comuns:
- empilhar observações recentes,
- usar políticas recorrentes (RNNs),
- aprender estados latentes (modelos de mundo).
Ações contínuas e controle
Muitas tarefas de controle do mundo real (torque de robô, ângulos de direção) têm ações contínuas. Políticas frequentemente são distribuições Gaussianas parametrizadas por redes neurais, e funções de valor podem usar arquiteturas especializadas.
Ambientes multiagentes
Quando múltiplos agentes aprendem simultaneamente, o “ambiente” se torna não estacionário da perspectiva de qualquer agente individual. Conceitos como política/valor ainda se aplicam, mas exigem raciocínio de teoria dos jogos e abordagens de treinamento centralizado; veja RL Multiagente.
Dados offline e avaliação de política
Em RL Offline, o agente deve aprender a partir de dados registrados sem interação. Estimar valor se torna mais difícil porque a política que você quer avaliar pode escolher ações raramente (ou nunca) vistas nos dados — levando a erro de extrapolação.
Aprendizado por reforço para modelos de linguagem
Em RL para LLMs, o “estado” pode ser o prompt mais os tokens gerados até o momento, as ações são decisões do próximo token, e recompensas vêm de modelos de preferência ou feedback humano. As mesmas ideias centrais — política, valor, intuição de Bellman — ainda moldam o desenho de algoritmos, mesmo que as implementações difiram de benchmarks clássicos de MDP.
Resumo
- Um MDP modela tomada de decisão sequencial com estados, ações, probabilidades de transição, recompensas e um fator de desconto.
- Uma política (\pi) determina o comportamento; ela pode ser determinística ou estocástica.
- Funções de valor (V^\pi) e (Q^\pi) quantificam a recompensa esperada de longo prazo e permitem avaliação e melhoria de política.
- Equações de Bellman codificam a intuição central do aprendizado por reforço: valor é igual à recompensa imediata mais o valor descontado do futuro, permitindo tanto planejamento (modelo conhecido) quanto aprendizado (modelo desconhecido).
Esses conceitos são a espinha dorsal de essencialmente todos os algoritmos e aplicações de aprendizado por reforço; o próximo passo é ver como eles se tornam procedimentos concretos em Métodos e como interagem com incerteza e restrições de dados em Exploração vs Exploitação e RL Offline.