RL multiagente (Multi-Agent RL)

O Aprendizado por Reforço Multiagente (Multi-Agent Reinforcement Learning, MARL) estuda como múltiplos agentes tomadores de decisão aprendem enquanto interagem no mesmo ambiente. Diferentemente do aprendizado por reforço padrão (de agente único), o “ambiente” em MARL frequentemente inclui outros agentes que também estão aprendendo, o que cria ciclos de realimentação (feedback loops): o comportamento de cada agente altera a distribuição de dados (data distribution) observada pelos demais. Isso pode levar a dinâmicas emergentes (emergent dynamics) como coordenação, competição, convenções, corridas armamentistas (arms races) e, às vezes, modos de falha (failure modes) inesperados.

MARL é uma ponte entre Conceitos de Aprendizado por Reforço e teoria dos jogos: ele generaliza o aprendizado por reforço de “um agente vs. um mundo estacionário” para “muitos agentes coadaptando ao longo do tempo”.

Por que o Aprendizado por Reforço Multiagente é Diferente

No aprendizado por reforço de agente único, em geral você pode modelar o mundo como um Processo de Decisão de Markov (Markov Decision Process, MDP): a dinâmica de transição (transition dynamics) e a função de recompensa (reward function) não mudam conforme o agente aprende. Em MARL, da perspectiva de qualquer agente, o ambiente se torna não estacionário (non-stationary) porque outros agentes atualizam suas políticas (policies).

Isso importa porque muitas ferramentas centrais de aprendizado por reforço (retrocessos de Bellman (Bellman backups), iteração de valor (value iteration), replay fora de política (off-policy replay)) assumem implicitamente estacionariedade. MARL, portanto, introduz complicações tanto conceituais quanto práticas, ao mesmo tempo em que habilita comportamentos mais ricos:

Cooperação: agentes coordenam para alcançar um objetivo compartilhado (por exemplo, equipes de robôs movendo um objeto).
Competição: agentes se opõem entre si (por exemplo, jogos de dois jogadores).
Cenários de motivos mistos (mixed-motive settings): agentes têm objetivos parcialmente alinhados e parcialmente conflitantes (por exemplo, leilões, tráfego).

Formalismo Central: de MDPs a Jogos de Markov

Um modelo matemático comum para MARL é um jogo de Markov (estocástico) (Markov (stochastic) game), também chamado simplesmente de jogo de Markov (Markov game):

Um espaço de estados (state space) (S)
Para cada agente (i \in {1,\dots,N}), um espaço de ações (action space) (A_i)
Uma ação conjunta (joint action) (a = (a_1,\dots,a_N)) em (A_1 \times \cdots \times A_N)
Dinâmica de transição (P(s' \mid s, a))
Uma função de recompensa para cada agente (r_i(s, a, s'))
Frequentemente: funções de observação (observation functions) (o_i \sim O_i(\cdot \mid s)) (observabilidade parcial (partial observability))

Cada agente aprende uma política (\pi_i(a_i \mid o_i)) ou (\pi_i(a_i \mid s)) dependendo do que ele consegue observar.

Cooperativo, Competitivo e Soma Geral

Cenários de MARL são frequentemente categorizados pela estrutura de recompensas:

Totalmente cooperativo: todos os agentes compartilham a mesma recompensa (r_1 = \cdots = r_N).
Equivalente a otimizar um objetivo de equipe, mas ainda difícil devido à coordenação e à atribuição de crédito.
Soma zero: o ganho de um agente é a perda de outro (por exemplo, (r_1 = -r_2)).
Fortemente ligado à otimização minimax (minimax optimization) e a conceitos de equilíbrio (equilibrium).
Soma geral (general-sum): recompensas podem conflitar ou se alinhar de forma arbitrária.
Esta é a categoria mais realista e a mais difícil: surgem múltiplos equilíbrios, incentivos e comportamento estratégico.

Observabilidade Parcial: Dec-POMDPs

Em muitos problemas reais, cada agente vê apenas informações locais. Uma formulação cooperativa comum é o MDP Parcialmente Observável Descentralizado (Decentralized Partially Observable MDP, Dec-POMDP), em que os agentes recebem observações locais e devem agir sem acesso ao estado global completo no momento da execução. Essa é uma motivação central para o paradigma de treinamento popular treinamento centralizado com execução descentralizada (centralized training with decentralized execution, CTDE), discutido mais adiante.

Principais Desafios Únicos de MARL

1) Não Estacionariedade (Aprendizado com Alvo Móvel)

Da perspectiva do agente (i), as probabilidades de transição dependem das políticas dos outros agentes: [ P(s' \mid s, a_i) = \sum_{a_{-i}} P(s' \mid s, a_i, a_{-i}) \prod_{j \ne i} \pi_j(a_j \mid o_j) ] Se outros agentes mudam (\pi_j) durante o treinamento, o ambiente efetivo muda, quebrando várias suposições de estabilidade no aprendizado por reforço padrão.

Sintoma prático: replay de experiências (experience replay) pode se tornar prejudicial porque trajetórias antigas foram geradas sob comportamentos desatualizados de oponentes/colegas de equipe.

2) Explosão do Espaço de Ações Conjunto

O espaço de ações conjunto cresce exponencialmente com o número de agentes: [ |A| = \prod_i |A_i| ] Mesmo que cada agente tenha um conjunto pequeno de ações, a combinação pode ser enorme, tornando intratável um aprendizado centralizado ingênuo de valor.

3) Atribuição de Crédito na Cooperação

Se a equipe recebe uma única recompensa global, como cada agente deve ajustar sua política?

Uma abordagem ingênua (“todo mundo recebe a mesma recompensa”) pode gerar sinais de aprendizado de alta variância.
Abordagens mais fundamentadas tentam estimar a contribuição marginal (marginal contribution) de cada agente (por exemplo, linhas de base contrafactuais).

4) Coordenação, Seleção de Equilíbrio e Desalinhamento

Podem existir múltiplos equilíbrios bons (por exemplo, duas formas de coordenar), e a dinâmica de aprendizado pode convergir para convenções diferentes dependendo da inicialização e da exploração. Em jogos de motivos mistos, um comportamento individualmente racional também pode produzir resultados coletivamente ruins (por exemplo, tragédia dos comuns).

5) A Exploração se Torna Acoplada

A exploração é mais difícil porque:

A ação exploratória de um agente pode perturbar o sinal de aprendizado de outro.
Pode ser necessária exploração coordenada (por exemplo, dois agentes devem simultaneamente tentar uma nova estratégia).
Veja Exploração vs. Aproveitamento para princípios gerais de exploração — MARL amplifica esses problemas.

Padrões Comuns de Solução e Famílias de Algoritmos

MARL possui muitos algoritmos; a maioria pode ser entendida como combinações de algumas ideias recorrentes.

Aprendizado Independente (Tratar os Outros como Parte do Ambiente)

Q-Learning Independente (Independent Q-Learning, IQL) ou “gradientes de política independentes” treinam cada agente usando um algoritmo padrão de agente único, ignorando a dinâmica de aprendizado dos demais.

Prós: simples, escalável, descentralizado por padrão.
Contras: instabilidade devido à não estacionariedade; pode falhar em coordenar.

Essa abordagem ainda é surpreendentemente eficaz em alguns cenários de grande escala quando combinada com:

compartilhamento de parâmetros (parameter sharing) (agentes homogêneos),
regularização forte (regularization),
desenho cuidadoso de currículo (curriculum design).

Treinamento Centralizado com Execução Descentralizada (CTDE)

CTDE aborda observabilidade parcial e coordenação permitindo informações mais ricas durante o treinamento:

Durante o treinamento: um crítico centralizado (centralized critic) (ou uma função de valor centralizada) pode condicionar no estado global e/ou nas ações de outros agentes.
Durante a execução: cada agente usa apenas sua observação local para agir.

Isso se alinha a restrições reais (agentes não conseguem ver tudo em tempo de execução) enquanto estabiliza o aprendizado.

Exemplos de algoritmos no estilo CTDE:

MADDPG (Multi-Agent DDPG): ator-crítico (actor-critic) com críticos centralizados e atores descentralizados.
MAPPO (Multi-Agent PPO): uma abordagem no estilo PPO (PPO-style approach) com estimação centralizada de valor.

CTDE é conceitualmente relacionado a métodos ator-crítico abordados em Métodos de Aprendizado por Reforço, mas adaptado à estrutura multiagente de informações.

Decomposição de Valor para MARL Cooperativo

Em tarefas cooperativas com uma recompensa de equipe compartilhada, uma ideia poderosa é representar a função de valor-ação conjunta (Q_{tot}(s, a_1,\dots,a_N)) de forma estruturada:

VDN (Value Decomposition Networks):
(Q_{tot} \approx \sum_i Q_i(o_i, a_i))
QMIX:
(Q_{tot}) é uma mistura monotônica das utilidades (utilities) por agente (Q_i), permitindo seleção gulosa descentralizada de ações enquanto aprende um valor centralizado mais rico.

Por que isso ajuda:

reduz a complexidade em comparação com um (Q_{tot}) totalmente centralizado,
incentiva políticas descentralizáveis,
melhora a atribuição de crédito ao fornecer utilidades específicas por agente.

Atribuição de Crédito Contrafactual (COMA)

COMA (Counterfactual Multi-Agent) usa um crítico centralizado e computa uma vantagem (advantage) para cada agente com base em uma linha de base contrafactual (counterfactual baseline): “Qual seria o valor da equipe se o agente (i) mudasse sua ação, mantendo os demais fixos?”

Isso reduz variância e atribui melhor a recompensa da equipe às ações individuais, particularmente em cenários de ações discretas.

Autojogo e Treinamento Baseado em Populações

Em cenários competitivos ou mistos, o autojogo (self-play) é uma das ideias de treinamento mais bem-sucedidas:

Treinar um agente contra cópias (ou versões passadas) de si mesmo.
Atualizar periodicamente o conjunto de oponentes para evitar sobreajuste (overfitting) a um único adversário.

Isso pode criar uma corrida armamentista de estratégias e está por trás de muitos avanços em jogos (por exemplo, Go, cenários tipo Dota). Variantes mais avançadas incluem manter uma população de agentes para melhorar diversidade e robustez.

Modelagem do Oponente

Em vez de tratar outros agentes como ruído, um agente pode modelá-los explicitamente:

aprender um preditor das ações do oponente,
inferir “tipos” latentes ou objetivos,
adaptar-se online a novos oponentes.

A modelagem do oponente é valiosa para robustez e generalização, especialmente em ambientes de soma geral onde os comportamentos podem variar amplamente.

MARL de Campo Médio (Aproximação com Muitos Agentes)

Quando há muitos agentes similares (por exemplo, veículos no trânsito, grandes enxames), modelar todas as interações explicitamente é caro. Métodos de campo médio (mean-field) aproximam a influência de outros agentes por uma estatística agregada (por exemplo, distribuição média de ações dos vizinhos), habilitando escalabilidade.

Aprendizado de Comunicação

Algumas tarefas de MARL só se tornam viáveis se os agentes aprenderem a se comunicar. A comunicação pode ser modelada como:

ações explícitas de mensagem (símbolos discretos),
canais contínuos (vetores aprendidos),
compartilhamento de representações baseado em atenção (attention-based).

Um desafio central é garantir que a comunicação seja útil no momento da execução sob restrições de largura de banda (bandwidth), latência (latency) e observabilidade parcial.

Dinâmicas Emergentes: O que “Multiagente” Acrescenta Conceitualmente

MARL é atraente porque um comportamento global complexo pode surgir de regras locais de aprendizado:

Coordenação e Convenções

Agentes podem desenvolver convenções como:

quem cede passagem em um corredor estreito,
de que lado ultrapassar,
especialização de papéis (comportamentos líder/seguidor).

Essas convenções podem ser dependentes do caminho: pequenas aleatoriedades no início do treinamento podem determinar qual equilíbrio é selecionado.

Competição e Corridas Armamentistas

Em cenários adversariais, agentes podem alternar entre estratégias:

uma estratégia domina → oponentes se adaptam → surge uma contraestratégia → repete.

Isso se assemelha a dinâmicas evolutivas e pode levar à não convergência em configurações ingênuas de treinamento.

Dilemas Sociais e Incentivos Não Intencionais

O desenho de recompensas pode produzir resultados emergentes indesejáveis:

Agentes aprendem a explorar brechas nas recompensas de equipe.
Estratégias individualmente ótimas prejudicam o grupo (por exemplo, congestionamento, uso excessivo de recursos compartilhados).

Entender essas dinâmicas é importante para segurança e alinhamento, e se conecta conceitualmente aos incentivos estudados no desenho de mecanismos (mechanism design).

Exemplos Práticos

Exemplo 1: Jogos de Matriz Simples (Coordenação vs. Conflito)

Mesmo um jogo de uma etapa, com dois agentes, pode mostrar fenômenos de MARL.

Jogo de coordenação: ambos os agentes devem escolher a mesma ação para obter recompensa.

Se ambos escolhem A: recompensa (1,1)
Se ambos escolhem B: recompensa (1,1)
Se não combinam: recompensa (0,0)

Há dois equilíbrios (A,A) e (B,B). Aprendizes independentes podem convergir para qualquer um deles com base na exploração aleatória, ilustrando seleção de equilíbrio.

Dilema do Prisioneiro: a deserção individualmente racional leva a um resultado conjunto pior, ilustrando dilemas sociais e os limites da otimização puramente local.

Exemplo 2: Ambientes de Partículas Multiagente / Robótica Simples

Uma tarefa cooperativa clássica: dois agentes devem “cobrir” dois marcos. Cada agente vê apenas posições relativas próximas. Uma recompensa compartilhada incentiva a cobertura, mas os agentes precisam quebrar a simetria e se especializar.

Resultados comuns:

atribuição de papéis bem-sucedida,
oscilação (ambos perseguem o mesmo marco),
comunicação emergindo se for permitida.

Exemplo 3: Entrada no Tráfego e Gestão de Interseções

Cada veículo é um agente. O objetivo em nível de sistema pode ser vazão e segurança. Localmente, cada agente quer minimizar o tempo de viagem. MARL pode produzir:

convenções emergentes de cedência,
políticas agressivas que aumentam colisões se não forem restringidas,
comportamentos frágeis ao encontrar novos estilos de direção.

Esta é uma área-chave de aplicação, mas também destaca a necessidade de avaliação robusta (robust evaluation) e restrições de segurança.

Esboço Mínimo de Treinamento (Conceitual)

Abaixo está um esboço simplificado, em estilo Python, mostrando a estrutura de um loop de treinamento de MARL em uma API no estilo PettingZoo (PettingZoo-like API). Ele omite intencionalmente muitos detalhes de engenharia (vetorização (vectorization), registro (logging), críticos centralizados, etc.):

# Pseudocode illustrating multi-agent interaction data collection

env = make_multiagent_env()
policies = {agent_id: init_policy() for agent_id in env.agents}

for episode in range(num_episodes):
    obs = env.reset()
    done = {agent_id: False for agent_id in env.agents}

    trajectories = {agent_id: [] for agent_id in env.agents}

    while not all(done.values()):
        actions = {}
        for agent_id in env.agents:
            if not done[agent_id]:
                actions[agent_id] = policies[agent_id].act(obs[agent_id])

        next_obs, rewards, done, info = env.step(actions)

        for agent_id in env.agents:
            trajectories[agent_id].append(
                (obs[agent_id], actions.get(agent_id), rewards[agent_id], next_obs[agent_id], done[agent_id])
            )

        obs = next_obs

    # Update each agent (independent learners shown; CTDE would use joint info here)
    for agent_id in env.agents:
        policies[agent_id].update(trajectories[agent_id])

Para passar deste esboço de “aprendiz independente” para métodos CTDE (por exemplo, MAPPO/MADDPG), a etapa de atualização normalmente:

agrega observações/ações conjuntas para o crítico,
calcula vantagens usando estimativas centralizadas de valor,
atualiza atores descentralizados que usam apenas observações locais no momento da execução.

Aplicações de MARL

Jogos e Benchmarks Simulados

Ambientes de estratégia em tempo real e estilo MOBA (alta dimensionalidade, observabilidade parcial, horizontes longos).
Dedução social / cooperação com informação imperfeita (por exemplo, cenários tipo Hanabi). Esses domínios são populares porque colocam à prova coordenação, comunicação e generalização.

Multi-Robôs e Robótica de Enxame

frotas de armazém (alocação de tarefas, prevenção de colisões),
enxames de drones (cobertura, controle de formação),
manipulação cooperativa (múltiplos braços movendo um objeto).

Em robótica, simulação-para-real (sim-to-real) e restrições de segurança são centrais; MARL é frequentemente combinado com componentes baseados em modelo (model-based) (veja Aprendizado por Reforço Baseado em Modelo) ou com controle clássico para garantias.

Redes, Mercados e Desenho de Mecanismos

controle de congestionamento e roteamento,
agentes de lances em leilões e mercados de anúncios,
coordenação de rede elétrica e resposta à demanda.

Esses casos são frequentemente de soma geral: incentivos importam, e o comportamento de equilíbrio pode ser tão importante quanto maximizar recompensa.

Segurança e Defesa Cibernética

Atacantes e defensores formam naturalmente cenários multiagente adversariais. Autojogo e treinamento por populações podem produzir estratégias defensivas robustas, mas uma avaliação cuidadosa é necessária para evitar sobreajuste a um modelo de ameaça estreito.

Como MARL é Avaliado (e Como Pode Dar Errado)

Diferentemente do aprendizado por reforço de agente único, “retorno médio” frequentemente não é suficiente. Lentes comuns de avaliação incluem:

Retorno por agente e retorno da equipe (tarefas cooperativas).
Bem-estar social (soma das recompensas) vs. equidade (variância entre agentes).
Exploitabilidade (exploitability) (tarefas competitivas): quanto um oponente de melhor resposta (best-response) consegue ganhar.
Robustez/generalização: desempenho contra oponentes/colegas de equipe não vistos e sob mudança de distribuição (distribution shift).
Métricas comportamentais: colisões, violações de regras, custo de comunicação, estabilidade.

Armadilhas comuns:

Avaliar apenas contra oponentes de treinamento (sobreajuste).
“Manipulação de recompensas (reward hacking)” em recompensas compartilhadas (agentes encontram brechas).
Melhorias enganosas devido a vazamento de informação privilegiada (privileged information leakage) (o treinamento usa atributos não disponíveis na execução).

Dicas Práticas e Boas Práticas

Prefira CTDE quando observabilidade parcial e coordenação forem importantes.
Mantenha uma população de oponentes/colegas de equipe para reduzir sobreajuste em cenários competitivos/mistos.
Acompanhe tanto curvas de aprendizado (learning curves) quanto métricas comportamentais (segurança, colisões, diversidade).
Seja explícito sobre suposições: largura de banda de comunicação, parâmetros compartilhados, passos síncronos (synchronous steps), registro centralizado.
Use múltiplas sementes aleatórias (random seeds) e reporte variância (variance) — MARL pode ser especialmente sensível à inicialização.

Direções Atuais de Pesquisa (Visão Geral)

Aprendizado escalável de soma geral: treinamento estável e noções de equilíbrio significativas além de soma zero.
Robustez e generalização: agentes que cooperam com novos parceiros (trabalho em equipe ad-hoc) ou enfrentam oponentes novos.
MARL offline e orientado a conjuntos de dados: aprendizado a partir de logs sem interação (relacionado a Aprendizado por Reforço Offline), complicado por mudança de distribuição multiagente.
Segurança e restrições: exploração segura e satisfação de restrições em sistemas interativos.
Multiagente + modelos fundacionais (foundation models): coordenação com linguagem, uso de ferramentas e negociação — adjacente a Aprendizado por Reforço para LLMs, mas com dinâmicas estratégicas adicionais e entre múltiplas partes.

Resumo

MARL estende o aprendizado por reforço para cenários com múltiplos agentes aprendendo e interagindo simultaneamente, capturando tanto comportamento cooperativo quanto competitivo. Suas características definidoras — não estacionariedade, atribuição de crédito, coordenação e dinâmicas emergentes — tornam-no mais complexo do que o aprendizado por reforço de agente único, mas também mais representativo de sistemas do mundo real em que entidades inteligentes coexistem.

Na prática, MARL é frequentemente abordado por meio de:

aprendizado independente como linha de base,
CTDE para estabilidade e observabilidade parcial,
decomposição de valor e métodos contrafactuais para cooperação,
autojogo e populações para competição e robustez.

O resultado é um campo rico em que a dinâmica de aprendizado importa tanto quanto os objetivos — e em que comportamentos emergentes surpreendentes não são bugs, mas um fenômeno central a ser entendido e explorado.