Modelos Fundamentais Multimodais

Visão geral

Modelos fundacionais multimodais (MFMs) (multimodal foundation models) são grandes redes neurais pré-treinadas em múltiplas modalidades de dados — mais comumente texto, imagens, áudio e vídeo — e então adaptadas a muitas tarefas downstream (legendagem, resposta a perguntas visuais, tradução de fala, assistentes multimodais, robótica e mais). Assim como os modelos fundacionais apenas de texto, eles buscam aprender representações e habilidades amplamente úteis a partir de dados em escala de internet, mas adicionalmente precisam aprender:

Alinhamento cruzado entre modalidades (cross-modal alignment) (por exemplo, a foto de um “ônibus vermelho” corresponde à frase “um ônibus vermelho”)
Raciocínio e ancoragem cruzados entre modalidades (cross-modal reasoning and grounding) (por exemplo, responder “O que a pessoa está segurando?” usando a imagem)
Geração cruzada entre modalidades (cross-modal generation) (por exemplo, produzir fala a partir de texto, ou descrever um clipe de áudio em texto)
Robustez a modalidades ausentes ou ruidosas (robustness to missing or noisy modalities) (por exemplo, responder usando apenas uma imagem e nenhuma legenda)

MFMs ficam na interseção de Arquitetura Transformer, Aprendizado Auto-Supervisionado (Self-Supervised Learning) em larga escala, e dinâmicas de “escalonamento” discutidas em Leis de Escalonamento. Eles também levantam desafios distintivos para avaliação, segurança e interpretabilidade (veja Pesquisa de Alinhamento e Pesquisa de Interpretabilidade).

Por que a multimodalidade importa

Humanos aprendem a partir de fluxos sensoriais mistos; muitas tarefas são naturalmente multimodais:

Uma transcrição de reunião usa áudio; entender slides usa visão; resumir requer linguagem.
Robótica requer visão para percepção, linguagem para objetivos/instruções e frequentemente áudio para interação.
Tecnologias assistivas combinam câmera + microfone + diálogo para descrever o mundo.

A multimodalidade também pode melhorar a robustez: se uma modalidade é ambígua (uma imagem borrada), outra pode desambiguar (contexto textual ou pistas de áudio).

O que “fundacional” significa em um contexto multimodal

Um modelo geralmente é considerado um modelo fundacional multimodal quando ele é:

Pré-treinado em escala em dados multimodais amplos e diversos (frequentemente com rótulos fracos).
De propósito geral: transferível para muitas tarefas com ajuste fino, adaptadores ou prompting.
Capaz de condicionamento flexível: uma modalidade pode guiar saídas em outra (imagem → texto, texto → imagem, áudio → texto etc.).

Nem todos os modelos multimodais são modelos “fundacionais”. Um pequeno classificador áudio-visual específico de tarefa pode ser multimodal, mas não fundacional.

Padrões arquiteturais centrais

A maioria dos MFMs pode ser descrita como combinações de codificadores (encoders), módulos de fusão (fusion modules) e decodificadores (decoders). Duas perguntas práticas dominam o design:

Como representamos cada modalidade como tokens?
Onde e como fazemos a fusão de modalidades?

Tokenização de modalidades: transformando pixels e formas de onda em “tokens”

Transformers esperam sequências de vetores. Modalidades diferentes exigem tokenizadores/codificadores diferentes:

Imagens: frequentemente embeddings de patches (como no ViT), em que uma imagem é dividida em patches de tamanho fixo e projetada em vetores.
Vídeo: “tubelets” espaço-temporais ou patches por frame mais codificações de posição temporal.
Áudio: patches de espectrograma log-mel, tokens de áudio aprendidos ou tokens de codec (representações discretas de áudio).
Texto: tokens padrão de subpalavras (BPE/Unigram).

Desafio-chave: as contagens de tokens diferem enormemente — uma imagem pode gerar centenas de tokens; áudio/vídeo podem gerar milhares — criando pressão de computação e memória.

Estratégias de fusão: precoce, tardia e híbrida

Há três padrões comuns de fusão.

1) Modelos de duas torres (dois codificadores) (two-tower (dual-encoder) models) (fusão tardia)

Um codificador de visão e um codificador de texto produzem embeddings que são treinados para se alinhar, tipicamente usando aprendizado contrastivo (contrastive learning) (no estilo CLIP).

Prós: recuperação eficiente; embeddings podem ser indexados; treinamento escalável.
Contras: raciocínio fino limitado porque as modalidades interagem sobretudo por meio de uma pontuação de similaridade.

Esse padrão se estende para áudio-texto e visão-áudio (por exemplo, aprender um espaço de embeddings compartilhado entre modalidades).

2) Modelos codificador–decodificador ou somente decodificador com atenção cruzada (cross-attention) (fusão intermediária/precoce)

Um modelo de linguagem (LM) atende a tokens de imagem/áudio por meio de camadas de atenção cruzada ou ao ingerir tokens de modalidade projetados no seu contexto.

Prós: forte para geração e raciocínio (“conversar com imagens/áudio”).
Contras: computação mais pesada; requer alinhamento cuidadoso para evitar alucinações e preservar a ancoragem.

Muitos sistemas de “chat multimodal” seguem a receita LLM congelado + adaptador de modalidade treinável para reduzir custo e preservar capacidade linguística.

3) Fluxo unificado de tokens (unified token stream) (totalmente fundido)

Todas as modalidades são mapeadas para uma única sequência e processadas por uma pilha de transformer.

Prós: conceitualmente simples; interação máxima entre modalidades.
Contras: complexidade de engenharia e alto custo computacional; misturar modalidades pode desestabilizar o treinamento se não houver balanceamento.

Uma observação sobre mistura de especialistas (MoE) (mixture-of-experts (MoE))

MFMs vêm adotando cada vez mais camadas MoE para escalar parâmetros sem escalar a computação proporcionalmente: tokens diferentes (ou modalidades) podem ser roteados para diferentes especialistas. Isso pode ajudar na especialização por modalidade (especialistas de áudio, especialistas de visão), mas adiciona complexidade de roteamento e pode criar comportamento frágil se os especialistas forem subtreinados.

Objetivos de treinamento: como MFMs aprendem com dados multimodais

A maior parte do treinamento de MFMs combina várias famílias de objetivos.

Alinhamento contrastivo (contrastive alignment) (no estilo CLIP)

Dados pares correspondentes (imagem, legenda) ou (áudio, transcrição), aprende embeddings para que pares correspondentes fiquem próximos e pares não correspondentes fiquem distantes.

Uma perda comum é a InfoNCE simétrica sobre um lote:

[ \mathcal{L} = -\frac{1}{N}\sum_i \log \frac{\exp(s(v_i, t_i)/\tau)}{\sum_j \exp(s(v_i, t_j)/\tau)} ;-;\frac{1}{N}\sum_i \log \frac{\exp(s(t_i, v_i)/\tau)}{\sum_j \exp(s(t_i, v_j)/\tau)} ]

Onde (s(\cdot,\cdot)) é similaridade cosseno e (\tau) é uma temperatura.

Exemplo prático (pseudocódigo semelhante a PyTorch):

import torch
import torch.nn.functional as F

def clip_contrastive_loss(img_emb, txt_emb, temperature=0.07):
    img_emb = F.normalize(img_emb, dim=-1)
    txt_emb = F.normalize(txt_emb, dim=-1)
    logits = img_emb @ txt_emb.T / temperature  # [B, B]

    labels = torch.arange(logits.size(0), device=logits.device)
    loss_i2t = F.cross_entropy(logits, labels)
    loss_t2i = F.cross_entropy(logits.T, labels)
    return (loss_i2t + loss_t2i) / 2

Esse objetivo é central para recuperação multimodal (multimodal retrieval), classificação zero-shot (zero-shot classification) (via prompts de texto) e construção de espaços de embeddings compartilhados entre visão–linguagem–áudio.

Modelagem generativa (generative modeling) (autoregressiva, difusão ou modelagem mascarada)

Objetivos autoregressivos (autoregressive) treinam um modelo para prever o próximo token dado os tokens anteriores. Em cenários multimodais, os “tokens” podem ser:

tokens de texto (para legendagem, VQA)
tokens discretos de imagem/áudio (ao usar tokenizadores no estilo VQ ou codecs neurais)
uma mistura (texto condicionado em tokens de imagem)

Modelos de difusão (diffusion models) são amplamente usados para geração de imagens de alta qualidade e, cada vez mais, para áudio. Alguns sistemas combinam um LM fundacional com decodificadores de difusão, em que o LM fornece planejamento semântico e o modelo de difusão fornece fidelidade perceptual (veja Modelos de Difusão).

Modelagem mascarada (masked modeling) (mascarar e reconstruir) pode se aplicar a texto, patches de imagem ou patches de espectrograma de áudio, e é frequentemente usada para melhorar o aprendizado de representações sem exigir legendas alinhadas.

Ajuste multitarefa e ajuste por instruções (instruction tuning)

Após o pré-treinamento, os modelos frequentemente são treinados em tarefas supervisionadas curadas e então passam por ajuste por instruções para comportamento no estilo assistente. Para assistentes multimodais, isso frequentemente inclui:

QA ancorado em imagens
tarefas baseadas em OCR
interpretação de gráficos/tabelas a partir de imagens
transcrição de áudio + resposta a perguntas
diálogo de múltiplas rodadas com contexto visual

Essa etapa é onde muitos modelos ganham usabilidade “conversacional” — mas também pode introduzir correlações espúrias (spurious correlations) e aumentar a alucinação (hallucination) se os dados de ajuste forem enviesados.

Famílias representativas de modelos (categorias conceituais)

Em vez de um catálogo completo, é útil agrupar abordagens notáveis:

Codificadores duais contrastivos (contrastive dual-encoders) (imagem–texto, áudio–texto etc.): excelentes para recuperação e rotulagem zero-shot.
Modelos de linguagem visão-linguagem (VLMs) (vision-language LMs (VLMs)): LLMs aumentados com tokens de visão/atenção cruzada para legendagem, VQA e chat multimodal.
Modelos áudio-linguagem (audio-language models): ASR (fala-para-texto), tradução de fala, legendagem de áudio e resposta a perguntas sobre áudio.
Espaços de embeddings “que ligam tudo” (“Bind everything” embedding spaces): aprendem um espaço compartilhado para múltiplas modalidades (imagem, texto, áudio, vídeo, profundidade, IMU etc.) para viabilizar recuperação e transferência cruzadas entre modalidades.
Geradores multimodais unificados (unified multimodal generators): modelos que podem aceitar e gerar múltiplas modalidades (por exemplo, texto↔imagem↔áudio), frequentemente via tokenização discreta ou decodificadores específicos por modalidade.

Aplicações práticas

1) Busca e recuperação multimodais

Exemplo: “Encontre vídeos em que um cachorro está latindo perto de uma porta” pode usar:

embeddings de áudio (latido)
embeddings de visão (cachorro/porta)
embeddings de texto (consulta)

Um espaço de embeddings compartilhado permite busca aproximada de vizinhos mais próximos em milhões de itens.

2) Resposta a perguntas visuais e compreensão de documentos

VLMs podem responder perguntas ancoradas em imagens:

“Qual é a cor do semáforo?”
“Qual é o total neste recibo?” (requer OCR + raciocínio)
“Qual linha neste gráfico tem o aumento mais acentuado?” (analítica visual)

Essas tarefas estressam mais ancoragem (grounding) e raciocínio espacial (spatial reasoning) do que a legendagem clássica.

3) Assistentes de voz com consciência situacional

Um assistente multimodal pode:

ouvir uma pergunta (áudio),
olhar para uma cena (imagem),
e responder em fala (geração de áudio) com referências a evidências visuais.

Isso exige fusão cruzada robusta entre modalidades e restrições de segurança cuidadosas.

4) Compreensão de vídeo e ancoragem temporal (temporal grounding)

Casos de uso incluem:

“Em que timestamp o palestrante menciona receita?”
“Descreva a sequência de ações neste clipe.”
“O som do alarme é seguido por pessoas correndo?”

O alinhamento temporal (sincronia áudio-vídeo, limites de eventos) torna-se central.

5) Robótica e IA incorporada (embodied AI)

Robôs se beneficiam ao combinar:

visão (compreensão da cena)
linguagem (objetivos, instruções)
propriocepção e outros sensores (estado)

MFMs podem servir como módulos de alto nível de percepção e planejamento, embora o controle confiável normalmente exija componentes adicionais (políticas, planejadores) e medidas de segurança fortes (veja Modelos de Mundo para ideias relacionadas).

Desafios do treinamento multimodal (e por que são difíceis)

Desafios de dados: escala, qualidade e viés

Supervisão fraca e pareamento ruidoso
- Legendas de imagens na web podem estar erradas, incompletas ou não relacionadas.
- Metadados de áudio podem não descrever eventos sonoros.
- Legendas de vídeo frequentemente não correspondem ao que está visualmente presente.
Viés do conjunto de dados e lacunas de cobertura
- Super-representação de certas culturas, idiomas ou estilos visuais.
- Sub-representação de eventos raros (imagens médicas, cenários críticos de segurança).
Direitos autorais, privacidade e consentimento
- Dados multimodais frequentemente incluem rostos, vozes, endereços e documentos pessoais.
- Filtragem e governança são mais difíceis do que para texto sozinho.

Falhas de alinhamento e ancoragem

Alucinação em assistentes multimodais frequentemente significa descrever objetos inexistentes ou ler texto incorretamente em uma imagem. Causas incluem:

Dependência excessiva de priors de linguagem (o modelo “chuta” objetos típicos).
Tokenização visual com perda de informação ou resolução insuficiente para pequenos detalhes.
Dados de ajuste por instruções que recompensam respostas plausíveis em vez de respostas verificáveis.

Mitigações incluem:

melhores codificadores visuais / tokens de maior resolução,
treinamento explícito para “não sei,”
recuperação ou uso de ferramentas (por exemplo, ferramentas de OCR),
objetivos conscientes de ancoragem que conectem saídas a evidências.

Essas preocupações se conectam diretamente à Pesquisa de Alinhamento.

Desequilíbrio entre modalidades e instabilidade de otimização

Conjuntos de dados de texto costumam ser maiores e “mais limpos” do que áudio/vídeo alinhados. Se o treinamento não for balanceado, o modelo pode:

tornar-se dominado por texto (ignorando tokens de visão/áudio),
sobreajustar correlações fáceis (por exemplo, “se é uma foto de praia, diga ‘ensolarado’”).

Estratégias comuns:

dropout de modalidade (modality dropout) (remoção aleatória de modalidades para forçar robustez),
reponderação de perda (loss reweighting) e amostragem dinâmica,
aprendizado curricular (curriculum learning) (começar com pares alinhados fáceis e então adicionar tarefas mais difíceis),
backbones congelados + adaptadores (frozen backbones + adapters) para evitar deriva catastrófica.

Esses problemas se relacionam às dinâmicas discutidas em Aprendizado Contínuo, especialmente quando modelos são atualizados ao longo do tempo.

Alinhamento temporal (especialmente para áudio e vídeo)

Áudio e vídeo são baseados em tempo. Desafios incluem:

sincronizar fluxos (lip-sync, eventos)
aprender dependências de longo alcance (minutos de áudio/vídeo)
representar o tempo eficientemente sem explodir contagens de tokens

Abordagens incluem codificadores hierárquicos, pooling temporal, segmentação de eventos e codificações posicionais especializadas.

Eficiência de tokens e computação

Alimentar ingenuamente vídeo bruto em alta resolução em um transformer é proibitivamente caro. Sistemas frequentemente dependem de:

amostragem de frames
módulos de pooling ou reamostragem aprendidos
tokenizadores compressivos (por exemplo, códigos discretos)
MoE para escalar parâmetros
cache de características visuais para diálogo de múltiplas rodadas

O trade-off de engenharia é constante: fidelidade vs. custo vs. latência.

Avaliação é subespecificada

A avaliação multimodal é mais difícil do que a apenas de texto porque:

Muitas tarefas têm múltiplas respostas válidas (legendagem).
Benchmarks podem ser “enganados” via priors de linguagem.
Pequenas mudanças em uma imagem podem importar muito (contagem, relações espaciais).
Robustez no mundo real (iluminação, sotaques, ruído) é difícil de capturar.

A avaliação moderna frequentemente mistura:

métricas de recuperação (Recall@K)
acurácia de QA em conjuntos de dados curados
testes adversariais ou “contrafactuais” (trocar cores, reordenar frames)
medidas de calibração / incerteza
avaliação humana para utilidade e fidelidade

Isso se conecta a preocupações de medição em Habilidades Emergentes e a questões gerais em Raciocínio.

Um padrão concreto de “adaptador de VLM” (VLM adapter) (como muitos sistemas são construídos)

Uma receita prática comum:

Pré-treinar um codificador de visão forte (ou usar um já existente).
Começar a partir de um LLM (large language model) forte.
Aprender uma pequena projeção / adaptador (projection / adapter) mapeando características de visão para o espaço de embeddings do LLM.
Fazer ajuste por instruções em diálogo ancorado em imagens.

Esboço de alto nível:

# vision_encoder: outputs [B, N, Dv] visual tokens
# projector: maps Dv -> Dl (LLM hidden size)
# llm: decoder-only transformer

visual_tokens = vision_encoder(images)          # [B, N, Dv]
visual_tokens = projector(visual_tokens)        # [B, N, Dl]

# concatenate "visual prefix" with text tokens
inputs = torch.cat([visual_tokens, text_embs], dim=1)
outputs = llm(inputs, attention_mask=mask)

Essa abordagem é popular porque é eficiente em termos de computação e aproveita fortes priors de linguagem — ao mesmo tempo em que ainda permite ancoragem se for treinada com cuidado.

Considerações de segurança, uso indevido e governança

Modelos multimodais expandem tanto capacidade quanto risco:

Vazamento de privacidade (privacy leakage): imagens de documentos, rostos, endereços; vozes como identificadores biométricos.
Deepfakes e personificação (deepfakes and impersonation): geração de áudio e clonagem de voz aumentam o potencial de uso indevido.
Seguimento de instruções com contexto visual (instruction-following with visual context): modelos podem explicar como realizar atos ilícitos usando uma foto de um dispositivo ou local.
Amplificação de viés (bias amplification): estereótipos nocivos podem ser reforçados por associações visuais.

Mitigações incluem filtragem de dados, red-teaming, treinamento de políticas e acesso cuidadoso a ferramentas. Isso se conecta fortemente à Pesquisa de Alinhamento.

Direções abertas de pesquisa

Dentro de “Pesquisa & Fronteiras”, MFMs intersectam muitas questões ativas:

Melhor ancoragem e verificabilidade: fazer com que saídas citem evidências visuais/de áudio, reduzindo alucinação.
Multimodalidade eficiente de contexto longo (efficient long-context multimodality): lidar com vídeos longos e conversas sem custo proibitivo.
Raciocínio multimodal unificado: avançar de correlação para raciocínio estruturado sobre espaço e tempo (veja Raciocínio).
Interpretabilidade entre modalidades: entender quais pixels/frames/sons direcionam decisões (veja Pesquisa de Interpretabilidade).
Avaliação robusta: benchmarks que meçam compreensão multimodal real em vez de aprendizado por atalhos.
Aprendizado interativo com o mundo (world-interactive learning): conectar MFMs a agentes que agem e aprendem online (relacionado a Modelos de Mundo).
Limites de escalonamento (scaling limits): quando escalar ajuda vs. quando gargalos de dados/arquitetura dominam (veja Leis de Escalonamento).

Resumo

Modelos fundacionais multimodais visam generalizar por visão, linguagem e áudio ao aprender representações compartilhadas e poderosas capacidades de geração cruzada entre modalidades. Eles se baseiam em arquiteturas baseadas em transformers e auto-supervisão em larga escala, usando uma mistura de alinhamento contrastivo, treinamento generativo e ajuste por instruções. Sua promessa é ampla — busca, assistentes, compreensão de vídeo, robótica — mas também o são seus desafios: dados ruidosos, desequilíbrio entre modalidades, falhas de ancoragem, alinhamento temporal, custo computacional e riscos de segurança. Enfrentar esses desafios é uma fronteira central na pesquisa moderna em IA.