Conceitos

Por que esses conceitos importam em Aprendizado por Reforço

O aprendizado por reforço (reinforcement learning, RL) trata de tomar sequências de decisões sob incerteza para maximizar a recompensa de longo prazo. Quase todo método de aprendizado por reforço — seja Q-learning tabular, aprendizado por reforço profundo (deep RL) ou ator-crítico (actor-critic) — pode ser explicado usando quatro ideias centrais:

MDPs: um modelo matemático de um ambiente com dinâmica
Políticas: como um agente escolhe ações
Funções de valor: quão bons são estados/ações sob uma política
Intuição de Bellman: como o valor em horizontes longos pode ser computado a partir de uma olhada de um passo à frente

Esses conceitos são a “linguagem comum” que conecta teoria (controle ótimo, programação dinâmica) à prática (treinar agentes para jogos, robótica, recomendações). Tópicos mais avançados como Exploração vs Exploitação, Métodos, RL Baseado em Modelo e RL Offline se apoiam nessa base.

Processos de Decisão de Markov (MDPs)

Um MDP (Markov Decision Process) é o modelo formal padrão para aprendizado por reforço quando o ambiente é totalmente observável e satisfaz a propriedade de Markov.

A tupla do MDP

Um MDP é tipicamente definido como uma tupla:

[ (\mathcal{S}, \mathcal{A}, P, R, \gamma) ]

Estados (\mathcal{S}): uma representação do ambiente em um passo de tempo (por exemplo, a posição do tabuleiro de xadrez).
Ações (\mathcal{A}): o que o agente pode fazer (por exemplo, mover uma peça).
Dinâmica de transição (P(s' \mid s, a)): probabilidade do próximo estado dado o estado atual e a ação.
Função de recompensa (R(s, a, s')) (ou (R(s,a))): feedback escalar imediato.
Fator de desconto (\gamma \in [0,1)): o quanto recompensas futuras importam.

Um modelo mental útil: o agente repetidamente vivencia

[ s_t \rightarrow a_t \rightarrow (r_{t+1}, s_{t+1}) ]

e tenta escolher ações que maximizem a recompensa total futura.

A propriedade de Markov (por que “estado” importa)

O “Markov” em MDP significa:

O futuro é condicionalmente independente do passado dado o estado presente.

Formalmente:

[ P(s_{t+1} \mid s_t, a_t, s_{t-1}, a_{t-1}, \dots) = P(s_{t+1} \mid s_t, a_t) ]

Isso tem menos a ver com o mundo ser sem memória e mais com escolher uma representação de estado que resuma toda a informação relevante. Por exemplo:

Em navegação robótica, ((x, y, \text{heading}, \text{velocity})) pode ser Markoviano.
Um único quadro de câmera muitas vezes não é Markoviano para muitas tarefas (a velocidade está faltando), motivando quadros empilhados ou políticas recorrentes.

Se a propriedade de Markov não se sustenta porque o agente não consegue observar o estado subjacente completo, o modelo correto é um POMDP (MDP parcialmente observável). Muitos sistemas práticos de aprendizado por reforço ainda usam o formalismo de MDP, mas aprendem uma incorporação (embedding) semelhante a estado com recorrência ou atenção.

Tarefas episódicas vs contínuas, estados terminais

Dois tipos comuns de tarefa:

Episódicas: há um estado terminal (por exemplo, o jogo termina, o robô alcança o objetivo).
Contínuas: o processo roda indefinidamente (por exemplo, alocação de recursos de servidor).

Estados terminais frequentemente são modelados como absorventes: uma vez que você entra neles, permanece ali e não recebe mais recompensa.

Retornos e desconto

O aprendizado por reforço otimiza o retorno, a soma das recompensas futuras descontadas:

[ G_t = \sum_{k=0}^{\infty} \gamma^k r_{t+k+1} ]

Se (\gamma = 0): o agente é míope (só recompensa imediata).
Se (\gamma) é próximo de 1: o agente se importa com resultados de longo prazo.

O desconto tem benefícios tanto de modelagem quanto matemáticos:

Ele codifica preferência temporal (recompensa mais cedo é melhor).
Ele faz muitos operadores de Bellman serem contrações, permitindo garantias de convergência em cenários clássicos.

Exemplo prático: um pequeno gridworld

Imagine uma grade onde:

Estados são posições do agente ((x,y))
Ações são {cima, baixo, esquerda, direita}
Recompensa é +1 em uma célula objetivo, 0 caso contrário
Bater em uma parede mantém você no lugar (estocasticidade opcional)
O episódio termina no objetivo

Este é um MDP clássico: o próximo estado depende apenas da posição atual e do movimento escolhido.

Como bandits se relacionam (um caso especial)

Um bandido multi-braços (multi-armed bandit) pode ser visto como um MDP com:

um único estado (ou nenhum estado significativo),
nenhuma dinâmica de longo prazo,
recompensa que depende apenas da ação escolhida.

É por isso que bandits frequentemente são tratados separadamente; veja Bandits.

Políticas: como o agente se comporta

Uma política diz ao agente o que fazer em cada estado.

Políticas determinísticas e estocásticas

Determinística: (a = \pi(s))
Estocástica: (\pi(a \mid s)), uma distribuição de probabilidade sobre ações

Políticas estocásticas são comuns porque:

apoiam exploração de forma natural,
lidam com situações ambíguas (múltiplas boas ações),
são centrais em métodos de gradiente de política.

Políticas estacionárias vs dependentes do tempo

A maior parte da teoria e dos algoritmos de aprendizado por reforço foca em políticas estacionárias: o mesmo mapeamento (\pi(\cdot \mid s)) é usado em todo passo de tempo. Em um MDP, sempre existe uma política estacionária ótima sob suposições típicas.

Políticas práticas de exploração

Duas estratégias de exploração amplamente usadas:

(\epsilon)-greedy (comum com Q-learning):
- com probabilidade (\epsilon): ação aleatória
- caso contrário: toma a ação gulosa (melhor valor estimado)
Exploração softmax / Boltzmann:
- escolhe a ação com probabilidade proporcional a (\exp(Q(s,a)/\tau))

Exploração é um tópico profundo por si só; veja Exploração vs Exploitação.

Funções de valor: medindo “quão boas” as coisas são

Funções de valor atribuem o retorno esperado de longo prazo a estados ou pares estado-ação.

Função valor de estado \(V^\pi(s)\)

Dada uma política (\pi), o valor de estado é:

[ V^\pi(s) = \mathbb{E}_\pi \left[ G_t \mid s_t = s \right] ]

Interpretação: se você começa no estado (s) e segue a política (\pi), quanta recompensa você espera acumular (com desconto)?

Função valor de ação \(Q^\pi(s,a)\)

O valor de ação é:

[ Q^\pi(s,a) = \mathbb{E}_\pi \left[ G_t \mid s_t = s, a_t = a \right] ]

Interpretação: quão bom é tomar a ação (a) no estado (s), e então continuar com a política (\pi)?

Em muitos algoritmos de controle, (Q) é mais diretamente útil porque selecionar ações é o problema central.

Função vantagem \(A^\pi(s,a)\)

A vantagem compara uma ação ao comportamento médio sob a política:

[ A^\pi(s,a) = Q^\pi(s,a) - V^\pi(s) ]

Vantagem é central em métodos ator-crítico porque reduz variância e foca o aprendizado em ações “melhores do que o esperado”.

Para que as funções de valor são usadas na prática

Avaliação de política: estimar quão boa é uma política fixa (por exemplo, uma política de recomendação em produção).
Melhoria de política: derivar uma política melhor agindo de forma gulosa em relação ao (Q) estimado.
Atribuição de crédito (credit assignment): propagar recompensas atrasadas de volta para decisões anteriores.
Planejamento: computar valores a partir de um modelo conhecido (programação dinâmica).
Aprendizado: aproximar valores a partir de experiência amostrada (aprendizado por diferença temporal).

Em aprendizado por reforço profundo, funções de valor geralmente são aproximadas por redes neurais (por exemplo, DQN aprende (Q_\theta(s,a))), o que introduz desafios de estabilidade, mas escala para observações de alta dimensionalidade.

Intuição de Bellman: valor de longo horizonte a partir de uma olhada de um passo à frente

As equações de Bellman formalizam uma ideia simples, porém poderosa:

O valor do “agora” é igual à recompensa imediata mais o valor descontado do “próximo”, em média sobre a incerteza.

Essa é a base da programação dinâmica, do aprendizado por diferença temporal e de muitas atualizações em aprendizado por reforço.

Equação de expectativa de Bellman (para uma política fixa)

Para uma política (\pi):

[ V^\pi(s) = \mathbb{E}_{a \sim \pi(\cdot \mid s),, s' \sim P(\cdot \mid s,a)} \left[ R(s,a,s') + \gamma V^\pi(s') \right] ]

E para (Q^\pi):

[ Q^\pi(s,a) = \mathbb{E}{s' \sim P(\cdot \mid s,a)} \left[ R(s,a,s') + \gamma \mathbb{E}{a' \sim \pi(\cdot \mid s')}[Q^\pi(s',a')] \right] ]

Isto é uma relação de consistência: valores devem concordar com o “recompensa de um passo + continuação descontada” esperado.

Equação de otimalidade de Bellman (para a melhor política possível)

Defina as funções de valor ótimas:

(V^*(s) = \max_\pi V^\pi(s))
(Q^*(s,a) = \max_\pi Q^\pi(s,a))

Elas satisfazem:

[ V^(s) = \max_a \mathbb{E}_{s'}\left[ R(s,a,s') + \gamma V^(s') \right] ]

[ Q^(s,a) = \mathbb{E}{s'}\left[ R(s,a,s') + \gamma \max{a'} Q^(s',a') \right] ]

Essa equação explica por que a seleção gulosa de ações funciona uma vez que você conhece os valores ótimos: escolha a ação que maximiza a recompensa imediata esperada mais a continuação ótima.

“Backups de Bellman” como atualizações locais

Um backup de Bellman atualiza uma estimativa de valor usando estimativas de sucessores.

Por exemplo, um backup comum para (V):

[ V(s) \leftarrow \mathbb{E}[r + \gamma V(s')] ]

E para controle ótimo com (Q):

[ Q(s,a) \leftarrow \mathbb{E}[r + \gamma \max_{a'} Q(s',a')] ]

Essa é a intuição central por trás de muitos algoritmos de aprendizado por reforço: melhorar estimativas impondo repetidamente consistência de Bellman.

Um pequeno exemplo numérico (olhada de um passo à frente)

Suponha que a partir do estado (s), tomar a ação (a) sempre leva a (s') com recompensa 2, e você estima (V(s') = 10) com (\gamma=0.9). Então o valor “com backup” de tomar (a) é:

[ 2 + 0.9 \cdot 10 = 11 ]

Mesmo que o futuro de longo prazo seja complexo, a ideia de Bellman o comprime em um cálculo de um passo mais um valor armazenado do futuro.

Por que atualizações de Bellman convergem (em cenários clássicos)

Em MDPs finitos com (\gamma < 1), o operador de Bellman é uma contração sob normas adequadas, o que significa que backups repetidos tendem a convergir para um ponto fixo único (o verdadeiro (V^\pi) ou (V^*)). Isso sustenta as garantias para programação dinâmica clássica.

No aprendizado por reforço profundo moderno, a mesma intuição se aplica, mas aproximação por função, bootstrapping e aprendizado fora de política podem desestabilizar o treinamento — um motivo pelo qual algoritmos incluem redes-alvo, buffers de replay e outros estabilizadores.

Da teoria à prática: planejamento vs aprendizado

Uma distinção prática chave é se você conhece o modelo (P, R).

Planejamento (modelo conhecido)

Se você consegue consultar ou computar (P(s'|s,a)) e (R), você consegue computar valores por programação dinâmica.

Iteração de valor (computar (V^*) diretamente via backups de otimalidade):

# Tabular value iteration (conceptual)
V = {s: 0.0 for s in S}

for _ in range(num_iterations):
    V_new = {}
    for s in S:
        V_new[s] = max(
            sum(P[s,a,s2] * (R[s,a,s2] + gamma * V[s2]) for s2 in S)
            for a in A
        )
    V = V_new

Iteração de política alterna:

avaliar a política atual ((V^\pi)),
melhorá-la (torná-la gulosa em relação aos valores).

Planejamento é central em robótica e pesquisa operacional, e se torna especialmente poderoso quando combinado com modelos aprendidos; veja RL Baseado em Modelo.

Aprendizado (modelo desconhecido)

Na maioria dos problemas de aprendizado por reforço, você não conhece as transições e deve aprender a partir da experiência. As equações de Bellman ainda orientam o aprendizado, mas as expectativas são substituídas por amostras.

Um alvo genérico de diferença temporal (temporal-difference, TD) para avaliação de política:

[ \text{target} = r + \gamma V(s') ]

Um alvo clássico de controle (como em Q-learning):

[ \text{target} = r + \gamma \max_{a'} Q(s',a') ]

Essas ideias levam a famílias de algoritmos cobertas em Métodos, incluindo:

aprendizado baseado em valor (Q-learning, DQN),
gradientes de política (otimizar (\pi) diretamente),
ator-crítico (aprender (\pi) e uma função de valor em conjunto).

Aproximação por função e aprendizado por reforço profundo

Quando (\mathcal{S}) é enorme (imagens, sensores contínuos), valores tabulares são impossíveis. Em vez disso, aproximamos:

(V(s) \approx V_\theta(s))
(Q(s,a) \approx Q_\theta(s,a))
(\pi(a|s) \approx \pi_\theta(a|s))

Redes profundas tornam o aprendizado por reforço escalável, mas introduzem desafios:

mudança de distribuição (distribution shift) (dados em política vs fora de política),
instabilidade de bootstrapping (bootstrapping instability) (alvos de aprendizado dependem da rede atual),
dificuldade de exploração em recompensas esparsas.

Isso é tratado por escolhas de projeto como buffers de replay, redes-alvo, bônus de entropia e estratégias cuidadosas de coleta de dados.

Armadilhas comuns e extensões da visão de MDP

Projeto de estado e observabilidade parcial

Se observações não satisfazem a propriedade de Markov, aprendizado “estilo MDP” pode falhar (por exemplo, quadros de Atari que piscam, velocidades ocultas). Correções comuns:

empilhar observações recentes,
usar políticas recorrentes (RNNs),
aprender estados latentes (modelos de mundo).

Ações contínuas e controle

Muitas tarefas de controle do mundo real (torque de robô, ângulos de direção) têm ações contínuas. Políticas frequentemente são distribuições Gaussianas parametrizadas por redes neurais, e funções de valor podem usar arquiteturas especializadas.

Ambientes multiagentes

Quando múltiplos agentes aprendem simultaneamente, o “ambiente” se torna não estacionário da perspectiva de qualquer agente individual. Conceitos como política/valor ainda se aplicam, mas exigem raciocínio de teoria dos jogos e abordagens de treinamento centralizado; veja RL Multiagente.

Dados offline e avaliação de política

Em RL Offline, o agente deve aprender a partir de dados registrados sem interação. Estimar valor se torna mais difícil porque a política que você quer avaliar pode escolher ações raramente (ou nunca) vistas nos dados — levando a erro de extrapolação.

Aprendizado por reforço para modelos de linguagem

Em RL para LLMs, o “estado” pode ser o prompt mais os tokens gerados até o momento, as ações são decisões do próximo token, e recompensas vêm de modelos de preferência ou feedback humano. As mesmas ideias centrais — política, valor, intuição de Bellman — ainda moldam o desenho de algoritmos, mesmo que as implementações difiram de benchmarks clássicos de MDP.

Resumo

Um MDP modela tomada de decisão sequencial com estados, ações, probabilidades de transição, recompensas e um fator de desconto.
Uma política (\pi) determina o comportamento; ela pode ser determinística ou estocástica.
Funções de valor (V^\pi) e (Q^\pi) quantificam a recompensa esperada de longo prazo e permitem avaliação e melhoria de política.
Equações de Bellman codificam a intuição central do aprendizado por reforço: valor é igual à recompensa imediata mais o valor descontado do futuro, permitindo tanto planejamento (modelo conhecido) quanto aprendizado (modelo desconhecido).

Esses conceitos são a espinha dorsal de essencialmente todos os algoritmos e aplicações de aprendizado por reforço; o próximo passo é ver como eles se tornam procedimentos concretos em Métodos e como interagem com incerteza e restrições de dados em Exploração vs Exploitação e RL Offline.