Modelos de Mundo
Visão geral
Um modelo de mundo (world model) é um modelo interno aprendido de um ambiente: ele comprime observações de alta dimensionalidade (imagens, áudio, propriocepção, texto) em um estado latente (latent state) e aprende como esse estado latente evolui ao longo do tempo sob ações. A ideia central é substituir a cara ou complicada “interação com o mundo real” por imaginação barata: o agente faz o modelo avançar no espaço latente (latent space) para prever resultados, planejar ou treinar políticas.
Modelos de mundo ficam na interseção de:
- Baseado em modelo (model-based) Aprendizado por Reforço (Reinforcement Learning) (aprende dinâmicas e depois as usa para controle)
- Aprendizado de representações (representation learning) (aprende estados latentes úteis)
- Aprendizado auto-supervisionado (self-supervised learning) (prediz o futuro / reconstrói observações sem rótulos)
- Modelagem sequencial de variáveis latentes (sequential latent-variable modeling) (ex.: autoencoders variacionais (VAEs) + redes neurais recorrentes (RNNs) / transformadores (transformers))
Um bom modelo de mundo captura dinâmica latente (latent dynamics): o estado subjacente que governa observações futuras, e não apenas predição em nível de pixel.
Por que “dinâmica latente” importa
Ambientes reais são parcialmente observados e de alta dimensionalidade. Considere controlar um robô a partir de imagens de câmera:
- O estado verdadeiro inclui posições de objetos, velocidades, atrito, contatos, estados das juntas etc.
- A observação é uma projeção ruidosa (pixels), com oclusões e detalhes irrelevantes.
Um modelo de mundo aprende um estado latente (z_t) que é:
- Compacto (baixa dimensionalidade)
- Preditivo (contém o que importa para o futuro)
- Condicionado por ação (muda apropriadamente com as ações)
- Frequentemente estocástico (captura incerteza e variáveis não observadas)
Em vez de prever pixels diretamente, muitos sistemas bem-sucedidos aprendem dinâmicas no espaço latente e só decodificam para pixels quando necessário.
Formalizando o problema
Um enquadramento comum é um Processo de Decisão de Markov Parcialmente Observável (POMDP):
- Estado oculto: (s_t)
- Observação: (o_t \sim p(o_t \mid s_t))
- Ação: (a_t)
- Transição: (s_{t+1} \sim p(s_{t+1} \mid s_t, a_t))
- Recompensa: (r_t = r(s_t, a_t))
Um modelo de mundo substitui (p) desconhecido por componentes aprendidos operando sobre um estado latente (z_t). Um modelo de mundo probabilístico típico usa:
- Codificador / modelo de inferência (encoder / inference model): (q_\phi(z_t \mid o_{\le t}, a_{<t}))
- Dinâmica latente (a priori) (prior): (p_\theta(z_{t+1} \mid z_t, a_t))
- Modelo de observação (decodificador) (observation model (decoder)): (p_\theta(o_t \mid z_t))
- Frequentemente, cabeçotes de recompensa e terminação (termination): (p_\theta(r_t \mid z_t, a_t)), (p_\theta(d_t \mid z_t))
Objetivo de treinamento (estilo ELBO)
Muitos modelos de mundo são treinados maximizando um limite inferior variacional, o limite inferior da evidência (ELBO), ao longo de sequências:
[ \sum_t \mathbb{E}{q\phi(z_t)}[\log p_\theta(o_t \mid z_t) + \log p_\theta(r_t \mid z_t)] - \mathrm{KL}\big(q_\phi(z_t \mid \cdot)\ |\ p_\theta(z_t \mid z_{t-1}, a_{t-1})\big) ]
Intuição:
- Reconstrua/prediga o que você vê (e as recompensas)
- Mantenha os latentes inferidos consistentes com o que o modelo de dinâmica prevê
- Use latentes estocásticos para representar incerteza e observabilidade parcial
Nem todos os modelos de mundo são probabilísticos, mas a modelagem de incerteza costuma ser crucial para planejamento e controle seguro.
Arquiteturas centrais e padrões de projeto
1) Dinâmica latente determinística (modelos preditivos (predictive models))
A abordagem mais simples codifica observações em um vetor latente e usa um modelo de transição determinístico:
- (z_t = f_\text{enc}(o_t))
- (\hat{z}{t+1} = f\text{dyn}(z_t, a_t))
- (\hat{o}{t+1} = f\text{dec}(\hat{z}_{t+1}))
Isso é fácil de treinar, mas tende a:
- Acumular erros compostos em desenrolamentos (rollouts) longos
- Ter dificuldades sob observabilidade parcial (informação faltante precisa ser “lembrada”)
- Ser excessivamente confiante (sem representação de incerteza)
2) Modelos estocásticos de espaço de estados (state-space models, SSMs)
Uma família amplamente usada introduz um latente estocástico e, frequentemente, uma “memória” determinística:
- Oculto determinístico: (h_t) (ex.: unidade recorrente com portas (GRU))
- Latente estocástico: (z_t) (ex.: gaussiano)
- Transição: (h_{t+1} = f(h_t, z_t, a_t)), (z_{t+1} \sim p(z_{t+1}\mid h_{t+1}))
Um exemplo proeminente é o Modelo Recorrente de Espaço de Estados (Recurrent State-Space Model, RSSM) usado por agentes no estilo Dreamer (Dreamer-style). RSSMs ajudam com:
- Observabilidade parcial (memória em (h_t))
- Futuros multimodais (estocasticidade em (z_t))
- Imaginação de longo horizonte (melhor estabilidade de desenrolamento)
3) Latentes discretos (estilo VQ (VQ-style))
Alguns modelos de mundo usam códigos discretos (ex.: quantização vetorial (vector quantization)) para:
- Melhorar a estabilidade em longos horizontes
- Incentivar abstrações do tipo simbólico
- Fazer interface naturalmente com modelos de sequência (tokens)
Essa ideia se relaciona a estratégias de tokenização (tokenization) usadas em Modelos Fundamentais Multimodais (Multimodal Foundation Models), em que imagens ou áudio podem ser representados como sequências de tokens discretos.
4) Modelos de mundo baseados em transformadores (Transformer-based world models)
Em vez de transições recorrentes, você pode modelar trajetórias com um transformador sobre tokens (observações/ações/latentes). Isso é atraente quando:
- Você quer modelagem de sequências escalável
- Você tem grandes conjuntos de dados offline
- Você se importa com janelas de contexto longas
No entanto, transformadores por si só não garantem bom controle; eles ainda precisam de um mecanismo de planejamento/política e de tratamento cuidadoso do deslocamento de distribuição (distribution shift).
Usando um modelo de mundo: planejamento e controle na imaginação
Uma vez que você consegue avançar no espaço latente, pode usar o modelo de várias formas.
A) Controle Preditivo por Modelo (Model Predictive Control, MPC) no espaço latente
No tempo (t):
- Inferir o latente atual (z_t) a partir do histórico de observações
- Amostrar sequências candidatas de ações (a_{t:t+H-1})
- Fazer o desenrolamento das transições latentes (z_{t+k+1} \sim p(z_{t+k+1}\mid z_{t+k}, a_{t+k}))
- Predizer recompensas (\hat{r}_{t+k})
- Escolher a sequência de ações com maior retorno previsto; executar a primeira ação; repetir
Isso é clássico em aprendizado por reforço baseado em modelo, mas desenrolamentos latentes o tornam viável com observações de alta dimensionalidade.
B) Aprender uma política/função de valor (policy/value function) “dentro” do modelo de mundo (no estilo Dreamer)
Em vez de fazer planejamento online caro a cada passo, você pode:
- Gerar trajetórias imaginadas a partir do modelo de mundo
- Treinar uma política/função de valor ator-crítico (actor-critic) em desenrolamentos imaginados
- Implantar a política aprendida no ambiente real
Isso amortiza o planejamento em uma política reativa, ainda se beneficiando do aprendizado baseado em modelo.
C) Aprendizado de representações para tarefas downstream (downstream tasks)
Mesmo sem aprendizado por reforço, o estado latente pode servir como uma característica compacta para:
- Classificação (ex.: “a porta está aberta?”)
- Previsão (ex.: fluxo de tráfego)
- Detecção de anomalias (transições inesperadas)
Exemplo prático: aprendendo dinâmica latente a partir de observações de imagens
Imagine uma configuração simples de “pêndulo invertido no carrinho (cartpole) a partir de pixels”:
- Observação (o_t): imagem RGB 64×64
- Ação (a_t): força para esquerda/direita
- Recompensa (r_t): manter o poste em pé
Um pipeline (pipeline) típico de modelo de mundo:
- Coletar dados: política aleatória ou um controlador fraco
- Treinar o modelo de mundo em sequências ((o_t, a_t, r_t))
- Treinar a política usando desenrolamentos imaginados
Abaixo há um esboço simplificado (não pronto para produção) de um laço de treinamento de um modelo de mundo latente estocástico em pseudocódigo no estilo PyTorch (PyTorch-like):
# Pseudocode: world model training on sequences (o, a, r)
# Assumes:
# - encoder: o_t -> posterior params (mu, logvar)
# - dynamics: (z_t, a_t) -> prior params (mu, logvar) for z_{t+1}
# - decoder: z_t -> reconstruction of o_t
# - reward_head: (z_t, a_t) -> predicted r_t
for batch in dataloader: # batch of sequences
o, a, r = batch # shapes: [B, T, ...]
z_post = []
kl_loss = 0.0
recon_loss = 0.0
reward_loss = 0.0
# initialize z_0 from o_0 posterior
mu, logvar = encoder(o[:, 0])
z = mu + torch.randn_like(mu) * (0.5 * logvar).exp()
z_post.append(z)
# reconstruction at t=0
o_hat = decoder(z)
recon_loss += mse(o_hat, o[:, 0])
for t in range(0, T-1):
# predict reward for step t
r_hat = reward_head(z, a[:, t])
reward_loss += mse(r_hat, r[:, t])
# prior for z_{t+1}
mu_prior, logvar_prior = dynamics(z, a[:, t])
# posterior for z_{t+1} from next observation (teacher forcing)
mu_post, logvar_post = encoder(o[:, t+1])
z_next = mu_post + torch.randn_like(mu_post) * (0.5 * logvar_post).exp()
# KL(q(z_{t+1}|o_{t+1}) || p(z_{t+1}|z_t,a_t))
kl_loss += kl_normal(mu_post, logvar_post, mu_prior, logvar_prior)
# reconstruct o_{t+1}
o_hat = decoder(z_next)
recon_loss += mse(o_hat, o[:, t+1])
z = z_next
z_post.append(z)
loss = recon_loss + reward_loss + beta * kl_loss
loss.backward()
optimizer.step()
optimizer.zero_grad()
Notas práticas principais:
- Forçamento do professor (teacher forcing) (condicionar o posterior na observação real seguinte) estabiliza o treinamento.
- Desenrolamentos de longo horizonte ainda podem derivar; você frequentemente avalia predição em malha aberta (open-loop) para medir a deriva.
- Adicionar um cabeçote de terminação (termination head) (predição de done) pode tornar os desenrolamentos imaginados mais realistas.
Sistemas canônicos e ideias influentes
Modelos de mundo têm uma longa linhagem, mas alguns marcos representativos:
- “World Models” (Ha & Schmidhuber, 2018): popularizou separar visão (VAE), memória (RNN) e controlador (controller), treinando uma política usando desenrolamentos no modelo aprendido.
- PlaNet: planejamento no espaço latente com transições probabilísticas.
- Dreamer / DreamerV2 / DreamerV3: aprendizado de políticas ator-crítico a partir de trajetórias imaginadas em um RSSM.
- MuZero: aprende um modelo de dinâmica no espaço latente para planejamento (sem reconstruir observações), combinando aprendizado de modelo com busca em árvore (tree search); enfatiza predizer recompensas/valores/políticas em vez de pixels.
Eles representam um espectro:
- Modelos pesados em reconstrução: aprendem a gerar observações
- Modelos focados na tarefa: aprendem apenas o que é necessário para predição de recompensa/valor e planejamento
Onde modelos de mundo se destacam (aplicações)
Robótica e IA incorporada (embodied AI)
- Aprender dinâmicas a partir de câmera + propriocepção
- Melhorar a eficiência amostral (sample efficiency) reutilizando dados na imaginação
- Dar suporte a planejamento sob restrições (ex.: trajetórias seguras)
Modelos de mundo são especialmente relevantes em robótica no mundo real, onde coletar dados é caro e arriscado.
Direção autônoma e simulação
- Prever comportamentos de outros agentes (futuros multimodais)
- Avaliar cenários “e se” (desenrolamentos contrafactuais)
- Detectar deslocamento de distribuição (picos de incerteza do modelo)
Jogos e controle
- Desenrolamentos latentes podem ser muito mais rápidos do que simulação baseada em pixels
- Combinar com planejamento (MCTS/MPC) para forte desempenho
Predição de vídeo e modelagem generativa
Mesmo sem ações, aprender dinâmicas de cenas visuais é útil para:
- Predição de quadros
- Aprendizado de representações para tarefas downstream
- Previsão sensível à compressão
Detecção de anomalias e monitoramento
Um modelo de mundo treinado em operação “normal” pode detectar anomalias quando:
- O erro de predição é alto
- A incerteza latente é alta
- Observações são improváveis sob (p(o_t \mid z_t))
Avaliação: como saber se um modelo de mundo é “bom”?
Modelos de mundo podem parecer bons sob métricas de reconstrução, mas falhar no controle. Ângulos comuns de avaliação:
- Predição de curto e longo horizonte (qualidade do desenrolamento em malha aberta)
- Desempenho na tarefa quando usado para controle (retorno, taxa de sucesso)
- Calibração/incerteza (calibration/uncertainty) (ele sabe quando não sabe?)
- Qualidade da representação (sondas lineares (linear probes), transferência para tarefas downstream (downstream transfer))
- Robustez sob deslocamento de distribuição (novas texturas, iluminação, dinâmicas)
Uma lição recorrente: realismo perceptual não é nem necessário nem suficiente para boa tomada de decisão.
Desafios práticos e modos de falha
Erro cumulativo e viés do modelo (model bias)
Pequenos erros de transição se acumulam ao longo de passos imaginados, levando a estados irreais. Políticas treinadas na imaginação podem explorar idiossincrasias do modelo (“hacking do modelo (model hacking)”), produzindo ações que parecem ótimas no modelo, mas falham na realidade.
Mitigações:
- MPC de curto horizonte com replanejamento frequente
- Regularização e estocasticidade
- Conjuntos (ensembles) ou planejamento sensível à incerteza (uncertainty-aware planning)
- Misturar desenrolamentos reais e imaginados durante o aprendizado da política
Observabilidade parcial e memória
Se a observação não revela variáveis-chave de estado, o modelo deve inferi-las a partir do histórico. RSSMs e modelos sequenciais ajudam, mas memória de longo prazo continua desafiadora.
Isso se conecta a questões mais amplas em Raciocínio (Reasoning) sobre como modelos representam e manipulam estrutura latente ao longo de longos horizontes.
Colapso de representação (representation collapse) ou características irrelevantes
Se o objetivo de treinamento focar demais em reconstrução, o latente pode codificar detalhes irrelevantes para controle (texturas) e perder dinâmicas sutis (contatos). Por outro lado, se focar apenas em predição de recompensa, pode falhar em generalizar.
Aprendizado contínuo (continual learning) e não estacionariedade
Ambientes reais mudam (desgaste, novos objetos, novas regras). Atualizar um modelo de mundo sem esquecer está intimamente relacionado a Aprendizado Contínuo (Continual Learning).
Comportamento de escalonamento
Modelos de mundo frequentemente melhoram com mais dados e computação, mas leis de escalonamento podem diferir entre componentes (percepção vs dinâmica vs planejamento). Entender o que escala suavemente vs o que encontra gargalos se relaciona a Leis de Escalonamento (Scaling Laws).
Conexões com outras grandes direções de IA
- Aprendizado por reforço baseado em modelo vs aprendizado por reforço sem modelo (model-free RL): modelos de mundo são a peça central do aprendizado por reforço baseado em modelo; híbridos frequentemente funcionam melhor na prática. Veja Aprendizado por Reforço.
- Modelagem multimodal: modelos de mundo futuros integram cada vez mais visão, áudio, linguagem e ação. Isso se sobrepõe a Modelos Fundamentais Multimodais.
- Interpretabilidade: estados latentes podem codificar variáveis semanticamente significativas, mas não há garantia de serem interpretáveis por humanos — uma área aberta ligada a Pesquisa em Interpretabilidade (Interpretability Research).
- Alinhamento e segurança: modelos preditivos melhores podem habilitar agentes mais fortes, mas também elevam riscos (ex.: planejamento mais capaz, exploração do modelo). Isso é relevante para Pesquisa em Alinhamento (Alignment Research).
Problemas em aberto e fronteiras de pesquisa
Modelos de mundo são promissores, mas várias questões permanecem ativas:
- Fidelidade em longo horizonte: como manter desenrolamentos estáveis e realistas ao longo de centenas ou milhares de passos?
- Aprendizado de representações causais: latentes podem representar variáveis causais que generalizam entre intervenções?
- Abstração ancorada: como aprender representações de estado discretas e composicionais que suportem generalização sistemática?
- Incerteza e segurança: como quantificar de forma confiável a incerteza epistêmica e usá-la para evitar planos inseguros?
- Eficiência de dados no mundo real: agentes podem construir modelos de mundo a partir de logs esparsos, bagunçados e parcialmente rotulados (dados offline) sem extrapolação frágil?
- Dinâmicas multiagente e sociais: modelar outros agentes introduz comportamento estratégico e futuros multimodais em um novo nível de complexidade.
Resumo
Modelos de mundo são modelos aprendidos de ambientes que focam em dinâmica latente: estados internos compactos e funções de transição que permitem a um agente prever, planejar e aprender com eficiência. Abordagens modernas de modelos de mundo combinam modelagem probabilística com variáveis latentes, modelagem de sequências e aprendizado por reforço para treinar agentes que conseguem “imaginar” futuros e otimizar comportamento com muito menos interações reais.
Eles são uma fronteira central de pesquisa porque prometem uma rota unificadora para inteligência mais geral: não apenas reconhecimento de padrões, mas simulação interna — um entendimento aprendido de como o mundo muda sob ações.