Conceitos

Por que esses conceitos importam em Aprendizado por Reforço

O aprendizado por reforço (reinforcement learning, RL) trata de tomar sequências de decisões sob incerteza para maximizar a recompensa de longo prazo. Quase todo método de aprendizado por reforço — seja Q-learning tabular, aprendizado por reforço profundo (deep RL) ou ator-crítico (actor-critic) — pode ser explicado usando quatro ideias centrais:

  • MDPs: um modelo matemático de um ambiente com dinâmica
  • Políticas: como um agente escolhe ações
  • Funções de valor: quão bons são estados/ações sob uma política
  • Intuição de Bellman: como o valor em horizontes longos pode ser computado a partir de uma olhada de um passo à frente

Esses conceitos são a “linguagem comum” que conecta teoria (controle ótimo, programação dinâmica) à prática (treinar agentes para jogos, robótica, recomendações). Tópicos mais avançados como Exploração vs Exploitação, Métodos, RL Baseado em Modelo e RL Offline se apoiam nessa base.

Processos de Decisão de Markov (MDPs)

Um MDP (Markov Decision Process) é o modelo formal padrão para aprendizado por reforço quando o ambiente é totalmente observável e satisfaz a propriedade de Markov.

A tupla do MDP

Um MDP é tipicamente definido como uma tupla:

[ (\mathcal{S}, \mathcal{A}, P, R, \gamma) ]

  • Estados (\mathcal{S}): uma representação do ambiente em um passo de tempo (por exemplo, a posição do tabuleiro de xadrez).
  • Ações (\mathcal{A}): o que o agente pode fazer (por exemplo, mover uma peça).
  • Dinâmica de transição (P(s' \mid s, a)): probabilidade do próximo estado dado o estado atual e a ação.
  • Função de recompensa (R(s, a, s')) (ou (R(s,a))): feedback escalar imediato.
  • Fator de desconto (\gamma \in [0,1)): o quanto recompensas futuras importam.

Um modelo mental útil: o agente repetidamente vivencia

[ s_t \rightarrow a_t \rightarrow (r_{t+1}, s_{t+1}) ]

e tenta escolher ações que maximizem a recompensa total futura.

A propriedade de Markov (por que “estado” importa)

O “Markov” em MDP significa:

O futuro é condicionalmente independente do passado dado o estado presente.

Formalmente:

[ P(s_{t+1} \mid s_t, a_t, s_{t-1}, a_{t-1}, \dots) = P(s_{t+1} \mid s_t, a_t) ]

Isso tem menos a ver com o mundo ser sem memória e mais com escolher uma representação de estado que resuma toda a informação relevante. Por exemplo:

  • Em navegação robótica, ((x, y, \text{heading}, \text{velocity})) pode ser Markoviano.
  • Um único quadro de câmera muitas vezes não é Markoviano para muitas tarefas (a velocidade está faltando), motivando quadros empilhados ou políticas recorrentes.

Se a propriedade de Markov não se sustenta porque o agente não consegue observar o estado subjacente completo, o modelo correto é um POMDP (MDP parcialmente observável). Muitos sistemas práticos de aprendizado por reforço ainda usam o formalismo de MDP, mas aprendem uma incorporação (embedding) semelhante a estado com recorrência ou atenção.

Tarefas episódicas vs contínuas, estados terminais

Dois tipos comuns de tarefa:

  • Episódicas: há um estado terminal (por exemplo, o jogo termina, o robô alcança o objetivo).
  • Contínuas: o processo roda indefinidamente (por exemplo, alocação de recursos de servidor).

Estados terminais frequentemente são modelados como absorventes: uma vez que você entra neles, permanece ali e não recebe mais recompensa.

Retornos e desconto

O aprendizado por reforço otimiza o retorno, a soma das recompensas futuras descontadas:

[ G_t = \sum_{k=0}^{\infty} \gamma^k r_{t+k+1} ]

  • Se (\gamma = 0): o agente é míope (só recompensa imediata).
  • Se (\gamma) é próximo de 1: o agente se importa com resultados de longo prazo.

O desconto tem benefícios tanto de modelagem quanto matemáticos:

  • Ele codifica preferência temporal (recompensa mais cedo é melhor).
  • Ele faz muitos operadores de Bellman serem contrações, permitindo garantias de convergência em cenários clássicos.

Exemplo prático: um pequeno gridworld

Imagine uma grade onde:

  • Estados são posições do agente ((x,y))
  • Ações são {cima, baixo, esquerda, direita}
  • Recompensa é +1 em uma célula objetivo, 0 caso contrário
  • Bater em uma parede mantém você no lugar (estocasticidade opcional)
  • O episódio termina no objetivo

Este é um MDP clássico: o próximo estado depende apenas da posição atual e do movimento escolhido.

Como bandits se relacionam (um caso especial)

Um bandido multi-braços (multi-armed bandit) pode ser visto como um MDP com:

  • um único estado (ou nenhum estado significativo),
  • nenhuma dinâmica de longo prazo,
  • recompensa que depende apenas da ação escolhida.

É por isso que bandits frequentemente são tratados separadamente; veja Bandits.

Políticas: como o agente se comporta

Uma política diz ao agente o que fazer em cada estado.

Políticas determinísticas e estocásticas

  • Determinística: (a = \pi(s))
  • Estocástica: (\pi(a \mid s)), uma distribuição de probabilidade sobre ações

Políticas estocásticas são comuns porque:

  • apoiam exploração de forma natural,
  • lidam com situações ambíguas (múltiplas boas ações),
  • são centrais em métodos de gradiente de política.

Políticas estacionárias vs dependentes do tempo

A maior parte da teoria e dos algoritmos de aprendizado por reforço foca em políticas estacionárias: o mesmo mapeamento (\pi(\cdot \mid s)) é usado em todo passo de tempo. Em um MDP, sempre existe uma política estacionária ótima sob suposições típicas.

Políticas práticas de exploração

Duas estratégias de exploração amplamente usadas:

  • (\epsilon)-greedy (comum com Q-learning):

    • com probabilidade (\epsilon): ação aleatória
    • caso contrário: toma a ação gulosa (melhor valor estimado)
  • Exploração softmax / Boltzmann:

    • escolhe a ação com probabilidade proporcional a (\exp(Q(s,a)/\tau))

Exploração é um tópico profundo por si só; veja Exploração vs Exploitação.

Funções de valor: medindo “quão boas” as coisas são

Funções de valor atribuem o retorno esperado de longo prazo a estados ou pares estado-ação.

Função valor de estado \(V^\pi(s)\)

Dada uma política (\pi), o valor de estado é:

[ V^\pi(s) = \mathbb{E}_\pi \left[ G_t \mid s_t = s \right] ]

Interpretação: se você começa no estado (s) e segue a política (\pi), quanta recompensa você espera acumular (com desconto)?

Função valor de ação \(Q^\pi(s,a)\)

O valor de ação é:

[ Q^\pi(s,a) = \mathbb{E}_\pi \left[ G_t \mid s_t = s, a_t = a \right] ]

Interpretação: quão bom é tomar a ação (a) no estado (s), e então continuar com a política (\pi)?

Em muitos algoritmos de controle, (Q) é mais diretamente útil porque selecionar ações é o problema central.

Função vantagem \(A^\pi(s,a)\)

A vantagem compara uma ação ao comportamento médio sob a política:

[ A^\pi(s,a) = Q^\pi(s,a) - V^\pi(s) ]

Vantagem é central em métodos ator-crítico porque reduz variância e foca o aprendizado em ações “melhores do que o esperado”.

Para que as funções de valor são usadas na prática

  • Avaliação de política: estimar quão boa é uma política fixa (por exemplo, uma política de recomendação em produção).
  • Melhoria de política: derivar uma política melhor agindo de forma gulosa em relação ao (Q) estimado.
  • Atribuição de crédito (credit assignment): propagar recompensas atrasadas de volta para decisões anteriores.
  • Planejamento: computar valores a partir de um modelo conhecido (programação dinâmica).
  • Aprendizado: aproximar valores a partir de experiência amostrada (aprendizado por diferença temporal).

Em aprendizado por reforço profundo, funções de valor geralmente são aproximadas por redes neurais (por exemplo, DQN aprende (Q_\theta(s,a))), o que introduz desafios de estabilidade, mas escala para observações de alta dimensionalidade.

Intuição de Bellman: valor de longo horizonte a partir de uma olhada de um passo à frente

As equações de Bellman formalizam uma ideia simples, porém poderosa:

O valor do “agora” é igual à recompensa imediata mais o valor descontado do “próximo”, em média sobre a incerteza.

Essa é a base da programação dinâmica, do aprendizado por diferença temporal e de muitas atualizações em aprendizado por reforço.

Equação de expectativa de Bellman (para uma política fixa)

Para uma política (\pi):

[ V^\pi(s) = \mathbb{E}_{a \sim \pi(\cdot \mid s),, s' \sim P(\cdot \mid s,a)} \left[ R(s,a,s') + \gamma V^\pi(s') \right] ]

E para (Q^\pi):

[ Q^\pi(s,a) = \mathbb{E}{s' \sim P(\cdot \mid s,a)} \left[ R(s,a,s') + \gamma \mathbb{E}{a' \sim \pi(\cdot \mid s')}[Q^\pi(s',a')] \right] ]

Isto é uma relação de consistência: valores devem concordar com o “recompensa de um passo + continuação descontada” esperado.

Equação de otimalidade de Bellman (para a melhor política possível)

Defina as funções de valor ótimas:

  • (V^*(s) = \max_\pi V^\pi(s))
  • (Q^*(s,a) = \max_\pi Q^\pi(s,a))

Elas satisfazem:

[ V^(s) = \max_a \mathbb{E}_{s'}\left[ R(s,a,s') + \gamma V^(s') \right] ]

[ Q^(s,a) = \mathbb{E}{s'}\left[ R(s,a,s') + \gamma \max{a'} Q^(s',a') \right] ]

Essa equação explica por que a seleção gulosa de ações funciona uma vez que você conhece os valores ótimos: escolha a ação que maximiza a recompensa imediata esperada mais a continuação ótima.

“Backups de Bellman” como atualizações locais

Um backup de Bellman atualiza uma estimativa de valor usando estimativas de sucessores.

Por exemplo, um backup comum para (V):

[ V(s) \leftarrow \mathbb{E}[r + \gamma V(s')] ]

E para controle ótimo com (Q):

[ Q(s,a) \leftarrow \mathbb{E}[r + \gamma \max_{a'} Q(s',a')] ]

Essa é a intuição central por trás de muitos algoritmos de aprendizado por reforço: melhorar estimativas impondo repetidamente consistência de Bellman.

Um pequeno exemplo numérico (olhada de um passo à frente)

Suponha que a partir do estado (s), tomar a ação (a) sempre leva a (s') com recompensa 2, e você estima (V(s') = 10) com (\gamma=0.9). Então o valor “com backup” de tomar (a) é:

[ 2 + 0.9 \cdot 10 = 11 ]

Mesmo que o futuro de longo prazo seja complexo, a ideia de Bellman o comprime em um cálculo de um passo mais um valor armazenado do futuro.

Por que atualizações de Bellman convergem (em cenários clássicos)

Em MDPs finitos com (\gamma < 1), o operador de Bellman é uma contração sob normas adequadas, o que significa que backups repetidos tendem a convergir para um ponto fixo único (o verdadeiro (V^\pi) ou (V^*)). Isso sustenta as garantias para programação dinâmica clássica.

No aprendizado por reforço profundo moderno, a mesma intuição se aplica, mas aproximação por função, bootstrapping e aprendizado fora de política podem desestabilizar o treinamento — um motivo pelo qual algoritmos incluem redes-alvo, buffers de replay e outros estabilizadores.

Da teoria à prática: planejamento vs aprendizado

Uma distinção prática chave é se você conhece o modelo (P, R).

Planejamento (modelo conhecido)

Se você consegue consultar ou computar (P(s'|s,a)) e (R), você consegue computar valores por programação dinâmica.

Iteração de valor (computar (V^*) diretamente via backups de otimalidade):

# Tabular value iteration (conceptual)
V = {s: 0.0 for s in S}

for _ in range(num_iterations):
    V_new = {}
    for s in S:
        V_new[s] = max(
            sum(P[s,a,s2] * (R[s,a,s2] + gamma * V[s2]) for s2 in S)
            for a in A
        )
    V = V_new

Iteração de política alterna:

  1. avaliar a política atual ((V^\pi)),
  2. melhorá-la (torná-la gulosa em relação aos valores).

Planejamento é central em robótica e pesquisa operacional, e se torna especialmente poderoso quando combinado com modelos aprendidos; veja RL Baseado em Modelo.

Aprendizado (modelo desconhecido)

Na maioria dos problemas de aprendizado por reforço, você não conhece as transições e deve aprender a partir da experiência. As equações de Bellman ainda orientam o aprendizado, mas as expectativas são substituídas por amostras.

Um alvo genérico de diferença temporal (temporal-difference, TD) para avaliação de política:

[ \text{target} = r + \gamma V(s') ]

Um alvo clássico de controle (como em Q-learning):

[ \text{target} = r + \gamma \max_{a'} Q(s',a') ]

Essas ideias levam a famílias de algoritmos cobertas em Métodos, incluindo:

  • aprendizado baseado em valor (Q-learning, DQN),
  • gradientes de política (otimizar (\pi) diretamente),
  • ator-crítico (aprender (\pi) e uma função de valor em conjunto).

Aproximação por função e aprendizado por reforço profundo

Quando (\mathcal{S}) é enorme (imagens, sensores contínuos), valores tabulares são impossíveis. Em vez disso, aproximamos:

  • (V(s) \approx V_\theta(s))
  • (Q(s,a) \approx Q_\theta(s,a))
  • (\pi(a|s) \approx \pi_\theta(a|s))

Redes profundas tornam o aprendizado por reforço escalável, mas introduzem desafios:

  • mudança de distribuição (distribution shift) (dados em política vs fora de política),
  • instabilidade de bootstrapping (bootstrapping instability) (alvos de aprendizado dependem da rede atual),
  • dificuldade de exploração em recompensas esparsas.

Isso é tratado por escolhas de projeto como buffers de replay, redes-alvo, bônus de entropia e estratégias cuidadosas de coleta de dados.

Armadilhas comuns e extensões da visão de MDP

Projeto de estado e observabilidade parcial

Se observações não satisfazem a propriedade de Markov, aprendizado “estilo MDP” pode falhar (por exemplo, quadros de Atari que piscam, velocidades ocultas). Correções comuns:

  • empilhar observações recentes,
  • usar políticas recorrentes (RNNs),
  • aprender estados latentes (modelos de mundo).

Ações contínuas e controle

Muitas tarefas de controle do mundo real (torque de robô, ângulos de direção) têm ações contínuas. Políticas frequentemente são distribuições Gaussianas parametrizadas por redes neurais, e funções de valor podem usar arquiteturas especializadas.

Ambientes multiagentes

Quando múltiplos agentes aprendem simultaneamente, o “ambiente” se torna não estacionário da perspectiva de qualquer agente individual. Conceitos como política/valor ainda se aplicam, mas exigem raciocínio de teoria dos jogos e abordagens de treinamento centralizado; veja RL Multiagente.

Dados offline e avaliação de política

Em RL Offline, o agente deve aprender a partir de dados registrados sem interação. Estimar valor se torna mais difícil porque a política que você quer avaliar pode escolher ações raramente (ou nunca) vistas nos dados — levando a erro de extrapolação.

Aprendizado por reforço para modelos de linguagem

Em RL para LLMs, o “estado” pode ser o prompt mais os tokens gerados até o momento, as ações são decisões do próximo token, e recompensas vêm de modelos de preferência ou feedback humano. As mesmas ideias centrais — política, valor, intuição de Bellman — ainda moldam o desenho de algoritmos, mesmo que as implementações difiram de benchmarks clássicos de MDP.

Resumo

  • Um MDP modela tomada de decisão sequencial com estados, ações, probabilidades de transição, recompensas e um fator de desconto.
  • Uma política (\pi) determina o comportamento; ela pode ser determinística ou estocástica.
  • Funções de valor (V^\pi) e (Q^\pi) quantificam a recompensa esperada de longo prazo e permitem avaliação e melhoria de política.
  • Equações de Bellman codificam a intuição central do aprendizado por reforço: valor é igual à recompensa imediata mais o valor descontado do futuro, permitindo tanto planejamento (modelo conhecido) quanto aprendizado (modelo desconhecido).

Esses conceitos são a espinha dorsal de essencialmente todos os algoritmos e aplicações de aprendizado por reforço; o próximo passo é ver como eles se tornam procedimentos concretos em Métodos e como interagem com incerteza e restrições de dados em Exploração vs Exploitação e RL Offline.