Exploração vs Exploração

Visão geral: o que “exploração vs aproveitamento (exploration vs exploitation)” significa

No aprendizado por reforço (reinforcement learning, RL) e na tomada de decisão sequencial (sequential decision-making), um agente escolhe ações repetidamente e observa resultados (recompensas e, às vezes, próximos estados). O dilema central é:

  • Aproveitamento (exploitation): escolher a ação que no momento parece melhor para maximizar a recompensa imediata (ou de curto prazo).
  • Exploração (exploration): escolher ações que podem ser subótimas agora para aprender — reduzindo a incerteza e potencialmente descobrindo escolhas melhores no longo prazo.

Essa tensão aparece em cenários simples como bandidos de múltiplos braços (multi-armed bandits) (escolher uma entre várias opções; observar apenas a recompensa da opção escolhida) e no aprendizado por reforço completo com Processos de Decisão de Markov (PDM; Markov Decision Processes, MDPs) (estados, ações, transições, recompensas atrasadas). Veja Bandidos e Conceitos de Aprendizado por Reforço para a configuração mais ampla.

Equilibrar exploração e aproveitamento não é um detalhe menor de ajuste: isso determina em grande medida se o aprendizado terá sucesso, especialmente com recompensas esparsas, restrições de segurança e grandes espaços de estados/ações.

Fundamentos teóricos: por que o trade-off existe

Visão de bandido: arrependimento e incerteza

Em um problema de bandido, cada ação (a) tem uma recompensa esperada desconhecida (\mu_a). Se você sempre escolher a ação com a maior estimativa atual de (\mu_a), pode acabar preso aproveitando uma ação que apenas parece melhor por causa do ruído.

Uma medida teórica comum é o arrependimento (cumulative) acumulado (regret):

[ R_T = \sum_{t=1}^{T} (\mu^* - \mu_{a_t}) ]

onde (\mu^*) é a melhor recompensa média alcançável e (a_t) é a ação escolhida no tempo (t). Explorar “vale a pena” quando reduz o arrependimento futuro ao melhorar as estimativas.

A teoria de bandits mostra que você pode alcançar arrependimento sublinear (por exemplo, (O(\log T)) em muitos casos) ao explorar de forma bem fundamentada. O puro aproveitamento pode levar a arrependimento linear no pior caso.

Visão de aprendizado por reforço/PDM: atribuição de crédito em horizontes longos

Em um PDM, as ações afetam não apenas as recompensas imediatas, mas também os estados futuros e, portanto, oportunidades futuras. A exploração precisa responder a perguntas mais difíceis:

  • Quais ações revelam informação sobre a dinâmica de transição (transition dynamics)?
  • Quais trajetórias podem levar a resultados raros, mas de alta recompensa?
  • Como o agente pode descobrir estados relevantes para a recompensa que estão inicialmente não observados?

Isso pode exigir exploração profunda (deep exploration): comprometer-se com uma estratégia exploratória estendida no tempo (por exemplo, “ir até a sala distante e procurar”) em vez de ruído aleatório e local nas ações (“virar esquerda/direita aleatoriamente”).

A exploração em PDMs se conecta de perto com algoritmos em Métodos de Aprendizado por Reforço, como Aprendizado Q (Q-learning), Gradientes de Política (Policy Gradients) e Métodos Ator-Crítico (Actor-Critic Methods), porque a regra de aprendizado e o mecanismo de exploração interagem.

Por que a exploração é difícil na prática

A exploração é difícil não apenas por causa de recompensas estocásticas, mas porque sistemas reais de aprendizado por reforço combinam feedback parcial, aproximação de função (function approximation) e restrições. Desafios comuns incluem:

1) Você só observa resultados para ações escolhidas (feedback de bandido)

Em muitas aplicações — anúncios, recomendações, precificação — você observa recompensa apenas para o que fez, não para o que poderia ter feito. Isso torna o aprendizado altamente sensível a escolhas iniciais.

Exemplo (anúncios): se você para de exibir um novo anúncio cedo porque seus cliques iniciais foram azarados, talvez nunca aprenda que ele é, na verdade, o melhor.

2) Ruído e não estacionariedade podem se passar por ações “boas” ou “ruins”

Recompensas podem ter alta variância, ser atrasadas ou influenciadas por fatores não observados.

  • Alta variância facilita superestimar uma ação com base em uma amostra pequena.
  • Não estacionariedade (nonstationarity) (preferências de usuários mudam; mercados mudam) significa que a melhor ação de ontem pode não ser a de hoje.

Às vezes, a exploração precisa continuar indefinidamente para acompanhar as mudanças.

3) Horizontes longos e recompensas esparsas exigem exploração profunda

Em muitos ambientes, as recompensas são esparsas (por exemplo, apenas ao fim de um episódio (episode)). Ruído aleatório nas ações frequentemente falha porque a probabilidade de “tropeçar” na sequência recompensadora pode ser astronomicamente pequena.

Exemplo (navegação em labirinto): a recompensa é +1 apenas ao alcançar o objetivo. Um agente (\varepsilon)-ganancioso ((\varepsilon)-greedy) que majoritariamente aproveita uma política inicial aleatória pode nunca alcançar o objetivo com frequência suficiente para aprender.

4) Aproximação de função cria “desconhecidos desconhecidos”

Com redes neurais profundas (deep neural networks), a generalização pode causar excesso de confiança em regiões não visitadas.

  • O modelo pode prever alto valor em estados que nunca explorou de forma significativa.
  • A incerteza clássica baseada em contagens (contagens de visita) deixa de ser direta em espaços contínuos/de alta dimensionalidade.

Isso faz de “quão incerto eu estou?” um problema central.

5) Explorar pode ser inseguro ou caro

Sistemas reais frequentemente têm restrições:

  • Robótica: colisões e desgaste
  • Saúde: risco ao paciente
  • Finanças: perdas (drawdowns) e restrições regulatórias

A exploração precisa ser sensível a risco (risk-aware), às vezes exigindo métodos seguros ou com restrições em vez de randomização ingênua.

6) Cenários multiagentes e adversariais amplificam a incerteza

Em Aprendizado por Reforço Multiagente, o ambiente muda à medida que outros agentes aprendem. A exploração é complicada por interações estratégicas: sondagens podem revelar fraquezas, e outros agentes podem se adaptar.

Estratégias comuns para equilibrar exploração e aproveitamento

A seguir estão estratégias amplamente usadas, desde heurísticas simples até métodos mais fundamentados e sensíveis à incerteza. Na prática, é comum combinar várias técnicas.

1) \(\varepsilon\)-ganancioso (\(\varepsilon\)-greedy) e suas variantes (simples, mas frequentemente eficaz)

Ideia: com probabilidade (\varepsilon), escolher uma ação aleatória (explorar); caso contrário, escolher a melhor atual (aproveitar). Frequentemente (\varepsilon) é reduzido gradualmente (annealed) ao longo do tempo.

Prós

  • Extremamente simples
  • Funciona razoavelmente bem em espaços de ações pequenos/discretos

Contras

  • A exploração é não direcionada (também tenta ações obviamente ruins)
  • Não é “profunda”: ações aleatórias de um passo podem não alcançar novos estados significativos

Pseudocódigo de bandido:

import random

def epsilon_greedy_action(Q, epsilon):
    # Q: dict action -> estimated value
    if random.random() < epsilon:
        return random.choice(list(Q.keys()))
    return max(Q, key=Q.get)

Dica prática: use um cronograma (schedule) como (\varepsilon_t = \max(\varepsilon_{\min}, \varepsilon_0 \cdot \alpha^t)) ou (\varepsilon_t \propto 1/\sqrt{t}). Reduzir gradualmente rápido demais é um modo de falha comum.

Inicialização otimista

Inicialize as estimativas de valor altas (por exemplo, (Q(a)=+10)) para que o agente se “decepcione” e naturalmente tente alternativas.

  • Funciona melhor quando as recompensas são limitadas e o ambiente é estacionário.
  • No aprendizado por reforço profundo (deep RL), a inicialização otimista ingênua é menos confiável devido à generalização complexa.

2) Exploração softmax/Boltzmann (softmax/Boltzmann exploration) e regularização de entropia (entropy regularization)

Em vez de exploração aleatória, escolha ações proporcionalmente ao seu valor estimado:

[ \pi(a) \propto \exp(Q(a)/\tau) ]

onde (\tau) é um parâmetro de temperatura (temperature parameter): (\tau) alto explora mais; (\tau) baixo se torna ganancioso.

Em métodos de gradiente de política, uma técnica intimamente relacionada é a regularização de entropia: adicionar um termo que incentiva políticas de maior entropia (mais estocásticas).

Esboço do objetivo de gradiente de política: [ J(\theta) = \mathbb{E}[R] + \beta , \mathbb{E}[\mathcal{H}(\pi_\theta(\cdot|s))] ]

Prós

  • Prefere ações “quase melhores” em vez de claramente ruins
  • Encaixe natural para políticas estocásticas (stochastic policies)

Contras

  • O ajuste de temperatura/coeficiente de entropia é delicado
  • Ainda pode não resolver exploração profunda em tarefas com recompensas esparsas

3) Métodos baseados em confiança (Otimismo diante da incerteza)

Esses métodos quantificam explicitamente a incerteza e escolhem ações que são ou de alto valor, ou incertas.

Limite Superior de Confiança (Upper Confidence Bound, UCB) para bandits

Uma abordagem clássica escolhe:

[ a_t = \arg\max_a \left( \hat{\mu}_a + c\sqrt{\frac{\log t}{N_a}} \right) ]

onde (N_a) é quantas vezes a ação (a) foi testada.

  • O segundo termo é um bônus de exploração (exploration bonus): ações raramente testadas recebem um impulso.
  • O Limite Superior de Confiança tem fortes garantias de arrependimento em bandits.

Código de exemplo (conceitual):

import math

def ucb_action(mean, counts, t, c=2.0):
    # mean[a] = estimated mean reward
    # counts[a] = number of pulls
    def ucb(a):
        if counts[a] == 0:
            return float("inf")
        return mean[a] + c * math.sqrt(math.log(t) / counts[a])
    return max(mean.keys(), key=ucb)

Estendendo o “otimismo” ao aprendizado por reforço

Em PDMs, o otimismo frequentemente aparece como:

  • Bônus de exploração adicionados à recompensa (por exemplo, (r' = r + \beta/\sqrt{N(s,a)}))
  • Funções de valor otimistas ou modelos otimistas

No entanto, estimar incerteza de forma confiável com redes neurais é mais difícil do que com contagens; assim, o aprendizado por reforço profundo moderno frequentemente usa aproximações (conjuntos (ensembles), funções de valor randomizadas, etc.).

4) Métodos bayesianos e amostragem de Thompson (Thompson sampling) (amostragem do posterior)

A amostragem de Thompson escolhe ações de acordo com a probabilidade de serem ótimas sob uma distribuição posterior.

  • Manter um posterior bayesiano sobre parâmetros (por exemplo, taxas de sucesso dos braços).
  • Amostrar um conjunto plausível de parâmetros.
  • Agir de forma ótima para essa amostra.

Isso equilibra naturalmente exploração e aproveitamento: ações incertas são selecionadas com mais frequência porque têm uma chance significativa de serem as melhores.

Exemplo de bandido Beta-Bernoulli:

import random

def thompson_action(alpha, beta):
    # alpha[a], beta[a] are Beta posterior parameters for Bernoulli rewards
    samples = {a: random.betavariate(alpha[a], beta[a]) for a in alpha}
    return max(samples, key=samples.get)

No aprendizado por reforço, a ideia análoga é a amostragem do posterior para aprendizado por reforço (posterior sampling for RL, PSRL): amostrar um PDM do posterior e planejar nele. Isso pode produzir exploração profunda porque o modelo amostrado pode comprometer o agente com uma estratégia exploratória coerente ao longo de vários passos de tempo.

Desafio prático: posteriores bayesianos exatos geralmente são intratáveis com redes profundas, então são usadas aproximações como conjuntos, dropout como aproximação bayesiana, ou métodos distribucionais.

5) Exploração baseada em contagens (count-based exploration) e pseudo-contagens (pseudo-counts)

Em espaços de estados discretos/pequenos, contagens simples de visitas funcionam bem:

  • Adicionar bônus (b(s,a) \propto 1/\sqrt{N(s,a)})
  • Ou preferir ações que levem a estados novos

Em espaços de alta dimensionalidade (imagens, estados contínuos), contagens exatas são impossíveis. As abordagens incluem:

  • Pseudo-contagens a partir de modelos de densidade (se um estado é “surpreendente” sob um modelo de densidade aprendido, trate-o como novo)
  • Hashing ou discretização de representações aprendidas

Prós

  • Mira diretamente a novidade
  • Frequentemente ajuda na exploração com recompensas esparsas

Contras

  • Definir “novidade de estado” em ambientes complexos é difícil
  • Pode incentivar “caça à novidade” que ignora a recompensa da tarefa

6) Motivação intrínseca (intrinsic motivation) / bônus de curiosidade (curiosity bonuses)

Quando a recompensa extrínseca é esparsa ou enganosa, agentes podem aprender a partir de uma recompensa intrínseca (intrinsic reward) adicional que mede novidade, erro de predição (prediction error) ou ganho de informação (information gain).

Famílias comuns:

  • Curiosidade por erro de predição: recompensar o agente quando seu modelo de dinâmica falha em prever bem o próximo estado.
  • Destilação de Rede Aleatória (Random Network Distillation, RND): recompensar estados que são difíceis para uma rede preditora igualar a uma rede-alvo aleatória fixa.
  • Ganho de informação: recompensar ações que reduzem a incerteza sobre o ambiente.

Intuição de exemplo (exploração robótica):

  • Recompensa extrínseca: “entregar o pacote com sucesso”
  • Recompensa intrínseca: “visitar estados com alto erro do modelo”
  • Resultado: o robô explora corredores não vistos e, eventualmente, descobre a rota de entrega.

Armadilhas

  • A curiosidade pode ficar presa aproveitando ruído estocástico (o problema da “TV ruidosa” (noisy TV)): o agente fica olhando para uma fonte imprevisível porque o erro de predição permanece alto.
  • Misturar recompensas intrínsecas e extrínsecas exige escalonamento cuidadoso e, às vezes, cronogramas.

7) Funções de valor randomizadas (randomized value functions), conjuntos e ruído de parâmetros (parameter noise) (ferramentas para exploração profunda)

Quando a incerteza é difícil de calcular diretamente, a randomização pode aproximá-la.

Conjuntos com bootstrap (bootstrapped ensembles) (por exemplo, DQN com bootstrap (Bootstrapped DQN))

Treine múltiplas redes Q (Q-networks) (ou “cabeças (heads)”) em diferentes amostras bootstrap de experiência. No início de um episódio, amostre uma cabeça e aja de forma gananciosa em relação a ela.

  • Incentiva exploração consistente e estendida no tempo.
  • Fornece uma aproximação prática para amostragem do posterior.

Ruído de parâmetros

Em vez de adicionar ruído às ações, adicione ruído aos parâmetros da política para que a política se comporte de forma consistentemente diferente por algum tempo.

  • Frequentemente melhor para controle contínuo do que apenas ruído nas ações.
  • Ajuda a produzir trajetórias de exploração coerentes.

8) Exploração baseada em modelo (model-based exploration)

No Aprendizado por Reforço Baseado em Modelo, o agente aprende um modelo de dinâmica e usa planejamento (planning). A exploração pode então mirar:

  • Regiões onde o modelo é incerto
  • Ações com alto ganho de informação esperado
  • Trajetórias com probabilidade de alcançar estados novos ou de alto valor

Benefício: o planejamento pode criar exploração estruturada (“ir para a área que mais vai me ensinar”).

Risco: erros do modelo podem enganar a exploração (o agente pode aproveitar alucinações (hallucinations) do modelo). Métodos modernos baseados em modelo frequentemente combinam planejamento conservador, estimativas de incerteza e simulações (rollouts) de curto horizonte para mitigar isso.

9) Exploração segura e com restrições

Em aplicações reais, a exploração deve respeitar restrições (segurança, justiça, orçamentos). As abordagens incluem:

  • Aprendizado por Reforço com Restrições (Constrained RL) (otimizar recompensa sujeita a restrições de custo)
  • Objetivos sensíveis a risco (CVaR, penalidades de variância)
  • Blindagem (shielding) ou filtros de segurança baseados em regras (bloquear ações perigosas)
  • Supervisão humano no ciclo (human-in-the-loop) para domínios de alto impacto

Esses métodos mudam o problema de exploração: você não está mais livre para “tentar tudo”, então deve explorar dentro de um conjunto seguro (safe set).

10) Aprendizado por reforço offline (offline RL): quando a exploração não é possível

No Aprendizado por Reforço Offline, o agente aprende a partir de um conjunto de dados fixo sem interagir com o ambiente. Aqui, o dilema “exploração vs aproveitamento” vira um dilema de cobertura de dados (data coverage):

  • Se o conjunto de dados não tiver exemplos de certas ações/estados, o agente não consegue avaliá-los de forma confiável.
  • Por isso, muitos algoritmos de aprendizado por reforço offline se comportam de modo conservador, evitando ações fora da distribuição (out-of-distribution).

Isso às vezes é resumido como: o aprendizado por reforço offline substitui a exploração por projeto de conjunto de dados e generalização conservadora.

11) Exploração em aprendizado por reforço para modelos de linguagem grandes (large language models, LLMs) (um caso especial)

Em Aprendizado por Reforço para Modelos de Linguagem Grandes (por exemplo, ajuste fino (fine-tuning) no estilo aprendizado por reforço a partir de feedback humano (Reinforcement Learning from Human Feedback, RLHF)), “exploração” frequentemente corresponde a amostrar saídas diversas. Mas isso é restringido por:

  • Penalidades de KL (KL penalties) que mantêm a política próxima a um modelo de referência (reference model) (limita exploração “arriscada”)
  • Incerteza do modelo de preferência/recompensa (reward model)
  • Restrições de segurança (evitar gerações inseguras)

A exploração prática frequentemente vem da estocasticidade de decodificação (temperature, amostragem por núcleo (nucleus sampling)) mais controle de entropia/KL no nível de otimização, em vez de novidade dirigida pelo ambiente.

Exemplos práticos

Exemplo 1: testes A/B/n (A/B/n testing) vs bandits em recomendações

  • Aproveitamento puro: mostrar o item atualmente com melhor desempenho para todos; converge rapidamente, mas pode cristalizar ruído inicial.
  • Exploração pura: randomizar igualmente; aprende bem, mas sacrifica recompensa de curto prazo.
  • Abordagem equilibrada: amostragem de Thompson ou Limite Superior de Confiança para alocar mais tráfego para itens promissores, enquanto ainda dá algum para os incertos.

Por isso algoritmos de bandits são populares para experimentação online: entregam forte desempenho enquanto continuam aprendendo.

Exemplo 2: ambiente de jogo com recompensa esparsa

Suponha que a recompensa só seja dada quando um nível é concluído.

  • (\varepsilon)-ganancioso pode nunca chegar à conclusão com frequência suficiente para aprender.
  • Curiosidade (RND) ou bônus baseados em contagem podem empurrar o agente a explorar sistematicamente novas salas, aumentando a chance de alcançar o objetivo.
  • Exploração via bootstrap/conjuntos pode fornecer exploração profunda ao se comprometer com uma “hipótese” consistente sobre onde a recompensa pode estar.

Exemplo 3: robótica com restrições de segurança

Um robô aprendendo a agarrar objetos deve explorar diferentes pegadas, mas derrubar objetos ou colidir é caro.

  • Use exploração segura (restrições, blindagem).
  • Use ruído de parâmetros ou exploração guiada em simulação e depois transfira.
  • Combine planejamento baseado em modelo com restrições sensíveis à incerteza.

Como escolher uma estratégia de exploração (orientação prática por regra de bolso)

Uma forma prática de escolher métodos:

  • Bandits / bandidos contextuais (contextual bandits) (anúncios, recomendações):
    • Comece com amostragem de Thompson ou Limite Superior de Confiança (padrões fortes).
    • Use variantes não estacionárias se a deriva (drift) for esperada.
  • Aprendizado por reforço discreto clássico com espaços de estados moderados:
    • (\varepsilon)-ganancioso + redução gradual pode ser uma linha de base (baseline).
    • Adicione bônus baseados em contagem se as recompensas forem esparsas.
  • Aprendizado por reforço profundo com recompensas esparsas:
    • Prefira métodos que suportem exploração profunda: conjuntos/métodos com bootstrap, motivação intrínseca ou exploração baseada em modelo.
    • Adicione regularização de entropia (para métodos de gradiente de política), mas não espere que isso resolva recompensas esparsas sozinho.
  • Domínios críticos em segurança:
    • Use formulações de aprendizado por reforço seguras/com restrições e limite a exploração a conjuntos seguros.
  • Cenário apenas offline:
    • Você não pode explorar; foque em aprendizado por reforço offline conservador e cobertura do conjunto de dados.

Armadilhas comuns e modos de falha

  • A exploração colapsa cedo demais: reduzir gradualmente (\varepsilon) ou a entropia de forma agressiva demais.
  • Excesso de confiança por aproximação de função: o agente para de explorar porque a rede generaliza incorretamente.
  • Armadilhas de curiosidade: o agente otimiza recompensa intrínseca (novidade) sem progredir na tarefa.
  • Bônus mal escalonados: a recompensa intrínseca domina a extrínseca (ou é pequena demais para importar).
  • Não estacionariedade ignorada: políticas “superajustam” (overfit) dados desatualizados.
  • Exploração insegura: ações aleatórias violam restrições; sempre adicione salvaguardas em sistemas reais.

Principais conclusões

  • Explorar é difícil porque o agente vê apenas feedback parcial, recompensas podem ser atrasadas/esparsas, e estimar incerteza é difícil com aproximação profunda de funções.
  • Em bandits, abordagens fundamentadas como Limite Superior de Confiança e amostragem de Thompson oferecem forte desempenho e garantias apoiadas pela teoria.
  • No aprendizado por reforço completo, especialmente no aprendizado por reforço profundo, a exploração eficaz frequentemente exige exploração profunda (conjuntos/funções de valor randomizadas, aproximações de amostragem do posterior) e/ou motivação intrínseca (novidade/curiosidade).
  • Restrições do mundo real (segurança, dados offline, não estacionariedade) moldam fundamentalmente como é uma “boa exploração”.

Se você quiser se aprofundar em como essas técnicas se encaixam dentro de algoritmos de aprendizado por reforço, veja Métodos de Aprendizado por Reforço e Aprendizado por Reforço Baseado em Modelo; para cenários sem interação, veja Aprendizado por Reforço Offline.