Pré-treinamento Visão-Linguagem (Vision-Language Pretraining)

Visão geral

Pré-treinamento Visão–Linguagem (Vision–Language Pretraining, VLP) é uma família de métodos que pré-treina conjuntamente modelos visuais e textuais em dados pareados em larga escala — tipicamente imagem–texto (e às vezes vídeo–texto) — para aprender representações nas quais o que é visto e o que é dito ficam alinhados. Após o pré-treinamento, esses modelos transferem bem para tarefas a jusante, como:

Recuperação imagem–texto (encontrar a legenda para uma imagem, ou a imagem para uma legenda)
Classificação de imagens zero-shot (zero-shot) via prompts de texto (por exemplo, “uma foto de um golden retriever”)
Geração de legendas de imagens (ver Geração de Legendas de Imagens)
Perguntas e respostas visuais (Visual Question Answering, VQA) e raciocínio
Seguimento de instruções multimodal (modelos de visão + linguagem que conseguem seguir comandos em linguagem natural ancorados em imagens)

O VLP se insere na área mais ampla de Modelos Multimodais de Visão-Linguagem e é um dos principais motores por trás dos sistemas modernos de visão–linguagem “de propósito geral”.

Por que o pré-treinamento em imagem–texto funciona

A ideia central: representações alinhadas

Imagens naturais contêm semântica rica, mas não vêm com rótulos por padrão. Texto associado a imagens (legendas, alt-text, texto ao redor na web, diálogo) é um sinal de supervisão fraco, porém escalável. O VLP usa esses pares para aprender:

Uma representação visual que captura conceitos de alto nível (objetos, ações, atributos, estilos)
Uma representação de linguagem que captura semântica e composicionalidade
Um espaço compartilhado ou um mecanismo de interação em que pares imagem–texto correspondentes recebem pontuações maiores do que pares não correspondentes

Isso transforma dados em escala web em uma forma de supervisão escalável, semelhante em espírito ao Aprendizado Auto-Supervisionado, mas explorando estrutura multimodal (cross-modal).

Transferência e comportamento “zero-shot”

Uma marca do VLP é a transferência: após o pré-treinamento, o modelo pode executar tarefas com pouco ou nenhum treinamento adicional.

Um exemplo canônico é a classificação zero-shot com um modelo pré-treinado de forma contrastiva (no estilo CLIP):

Incorporar (embedding) uma imagem em um vetor.
Incorporar vários prompts de nome de classe em vetores (por exemplo, “uma foto de um {rótulo}”).
Escolher o rótulo cuja incorporação de texto estiver mais próxima da incorporação da imagem.

Isso funciona porque o modelo aprendeu a alinhar imagens com descrições em linguagem natural que tendem a coocorrer com elas durante o pré-treinamento.

Dados: o que é usado em VLP

Fontes típicas

A maioria dos pipelines de VLP depende de conjuntos de dados grandes e ruidosos, como:

Pares imagem–texto em escala web (alt-text, texto ao redor, nomes de arquivo)
Conjuntos de dados de legendas curados (por exemplo, COCO Captions) para alinhamento de maior qualidade
Legendas sintéticas geradas por um gerador de legendas para “impulsionar” (bootstrap) o treinamento (comum em pipelines modernos)

Para vídeo–texto, as fontes incluem:

Vídeos narrados (por exemplo, conteúdo instrucional)
Legendas (subtítulos) pareadas com clipes de vídeo
Transcrições geradas automaticamente alinhadas a segmentos de tempo

Compromisso (tradeoff) entre qualidade e escala dos dados

Uma tensão prática central em VLP é:

Escala dá cobertura e robustez, mas introduz ruído (legendas incorretas, texto irrelevante, spam).
Qualidade melhora ancoragem e factualidade, mas é cara e menor.

A prática moderna frequentemente usa uma mistura:

Dados web enormes e ruidosos para conhecimento amplo
Dados curados/sintéticos menores para melhorar ancoragem, estilo e seguimento de instruções

Etapas comuns de curadoria de dados incluem:

Desduplicação (imagens/textos duplicados exatos e quase duplicados)
Filtragem por idioma, comprimento, profanidade ou heurísticas de similaridade
Remoção de marcas d’água/logotipos (opcional, dependendo dos objetivos)
Filtragem de segurança e tratamento de conteúdo sensível

Objetivos comuns de pré-treinamento

Os objetivos de VLP diferem em como conectam imagens e texto. Muitos sistemas combinam vários objetivos.

1) Aprendizado contrastivo (alinhamento com codificador duplo)

VLP contrastivo treina um codificador de imagem e um codificador de texto para produzir incorporações que correspondem para amostras pareadas e não correspondem caso contrário. Isso é frequentemente implementado com uma perda no estilo InfoNCE (ver Aprendizado Contrastivo).

Dado um lote (batch) de (N) pares alinhados ((I_i, T_i)), compute incorporações de imagem (v_i) e incorporações de texto (t_i). A similaridade é tipicamente similaridade cosseno escalonada por uma temperatura (\tau):

[ s_{ij} = \frac{v_i \cdot t_j}{\tau} ]

A perda incentiva (s_{ii}) a ser grande em relação a (s_{ij}) para (j \neq i) (e frequentemente de forma simétrica para texto-para-imagem).

Pontos fortes

Excelente para recuperação e classificação zero-shot
Escala de forma eficiente (especialmente com lotes grandes)
As incorporações são reutilizáveis para muitas tarefas a jusante

Limitações

Não treina diretamente geração (legendagem) nem raciocínio de granulação fina
O alinhamento pode ser “global”: pode perder ancoragem em nível de região, a menos que seja aumentado

Exemplo prático: classificação zero-shot

# Pseudocode (CLIP-style)
image_emb = image_encoder(image)              # [d]
text_embs = text_encoder(prompts)             # [num_classes, d]

# Normalize for cosine similarity
image_emb = image_emb / norm(image_emb)
text_embs = text_embs / norm(text_embs, axis=-1, keepdims=True)

scores = image_emb @ text_embs.T              # cosine similarities
pred = argmax(scores)

Os prompts importam: “uma foto de um {rótulo}” muitas vezes funciona melhor do que o rótulo isolado. Engenharia de prompts ou ensembling de prompts pode melhorar a acurácia de maneira perceptível.

2) Modelagem mascarada (entendimento via reconstrução)

A modelagem mascarada adapta ideias de Modelagem de Linguagem Mascarada (Masked Language Modeling, MLM) e modelagem mascarada de imagens para dados multimodais:

Modelagem de Linguagem Mascarada (Masked Language Modeling, MLM): mascarar palavras e prevê-las usando a imagem + o texto ao redor.
Modelagem Mascarada de Imagens: mascarar patches/regiões da imagem e reconstruí-los (ou prever tokens discretos) condicionados ao texto.

Esses objetivos incentivam raciocínio multimodal de granulação fina, pois o modelo precisa usar pistas da imagem para preencher lacunas no texto (e vice-versa).

Pontos fortes

Ancoragem em nível de token/região mais forte do que o puramente contrastivo
Útil para tarefas como VQA e ancoragem de frases

Limitações

Frequentemente mais lento do que o treinamento contrastivo
Objetivos de reconstrução podem priorizar detalhes de baixo nível, a menos que sejam cuidadosamente projetados

3) Correspondência imagem–texto (Image–Text Matching, ITM) / alinhamento binário

Alguns modelos treinam um classificador explícito para prever se uma imagem e um texto pertencem juntos (correspondência vs. não correspondência). Isso geralmente é combinado com “negativos difíceis” (hard negatives) (texto não correspondente que é semanticamente próximo).

Pontos fortes

Melhora o alinhamento de granulação fina e reduz correspondências por “atalhos”
Útil em pipelines de recuperação (reclassificação)

Limitações

Requer amostragem cuidadosa de negativos
Pode se tornar frágil se os negativos forem fáceis demais ou difíceis demais

4) Legendagem / geração autorregressiva

Outra família de métodos de VLP treina o modelo para gerar texto dado uma imagem, usando uma perda padrão de modelagem de linguagem:

[ \mathcal{L} = -\sum_{t} \log p(w_t \mid w_{<t}, I) ]

Isso é intimamente relacionado ao treinamento da Arquitetura Transformer, mas condicionado à entrada visual.

Pontos fortes

Otimiza diretamente para tarefas de geração (legendagem, explicações)
Mais alinhado com assistentes multimodais e seguimento de instruções

Limitações

Mais caro do que o pré-treinamento contrastivo no estilo recuperação
Pode alucinar se o modelo depender demais de priors de linguagem
Exige mecanismos fortes de ancoragem e bons dados

5) Misturas de objetivos (comum na prática)

Muitos sistemas bem-sucedidos misturam objetivos, por exemplo:

Alinhamento contrastivo (semântica global)
ITM (discriminação de correspondência de granulação fina)
Legendagem (capacidade de geração)

Isso tende a produzir representações mais “de propósito geral” do que qualquer objetivo único isoladamente.

Arquiteturas: como visão e linguagem são conectadas

Arquiteturas de VLP geralmente se encaixam em alguns padrões.

Modelos de codificador duplo (duas torres)

Estrutura

Um codificador de imagem produz uma única incorporação (ou agregada).
Um codificador de texto produz uma única incorporação.
A similaridade é computada em um espaço compartilhado.

Frequentemente usa um Transformer de Visão (Vision Transformer, ViT) ou uma CNN para imagens, e um Transformer para texto.

Onde se destaca

Recuperação rápida em escala (indexar incorporações)
Classificação zero-shot via prompts
Eficiência de servir: imagem e texto podem ser codificados de forma independente

Principal limitação

Interação profunda limitada entre modalidades (a menos que componentes adicionais sejam adicionados)

Codificador de fusão (atenção cruzada / fluxo único)

Estrutura

Concatenar tokens visuais (patches/regiões) e tokens de texto
Passá-los por um Transformer que permite atenção cruzada (cross-attention) (todos os tokens atendem a todos os tokens)

Onde se destaca

VQA, expressões referenciais, tarefas com forte exigência de ancoragem
Raciocínio que precisa de interações em nível de token

Principal limitação

Mais caro na inferência, especialmente para recuperação (não dá para pré-computar incorporações independentes com facilidade)

Codificador–decodificador (codificador de visão + decodificador de texto)

Estrutura

Um codificador de visão produz tokens visuais.
Um decodificador de texto gera texto de forma autorregressiva, atendendo aos tokens visuais (atenção cruzada).

Isso é comum para legendagem e assistentes multimodais.

Onde se destaca

Legendagem, respostas longas, seguimento de instruções
Interface natural: “dada esta imagem, gere…”

Principal limitação

Treinamento é intensivo em computação
Precisa de alinhamento cuidadoso para reduzir alucinações

Projetos híbridos (recuperação + geração, ou adaptadores modulares)

A prática recente frequentemente combina:

Um codificador de imagem forte pré-treinado
Um LLM (large language model) forte pré-treinado
Um “adaptador” (adapter) aprendido ou um pequeno módulo que mapeia características visuais para o espaço de tokens do LLM

Essa abordagem modular pode ser atraente quando você quer reutilizar componentes pré-treinados poderosos e treinar apenas um pequeno conector.

Treinamento em escala: considerações práticas

Tamanho de lote, negativos e treinamento distribuído

O VLP contrastivo se beneficia fortemente de muitos negativos (outras amostras no lote). Isso leva praticantes a:

Tamanhos de lote grandes (frequentemente em muitas GPUs)
Bancos de memória ou agregação entre dispositivos
Escalonamento cuidadoso de temperatura e normalização

Pré-processamento de imagens e aumentos

Aumentos ajudam a generalização, mas podem quebrar o alinhamento com o texto se forem fortes demais (por exemplo, recortes pesados podem remover o objeto descrito). Escolhas típicas:

Recorte aleatório com redimensionamento (força moderada)
Color jitter (leve)
Inversão horizontal (quando a semântica permitir)
Compromissos (tradeoffs) de resolução: maior resolução melhora ancoragem fina, mas custa computação

Pré-processamento de legendas/texto

Pipelines de texto frequentemente aplicam:

Filtragem por idioma (manter idiomas específicos ou suporte multilíngue)
Restrições de comprimento
Remoção de texto padronizado (“clique aqui”, “a imagem pode conter…”)
Tokenização consistente com o modelo de linguagem

Ruído nos dados e “lacunas de alinhamento”

Texto da web pode estar apenas fracamente relacionado à imagem. Modelos podem aprender atalhos:

Associar “snowboard” a fundos nevados mesmo que nenhuma prancha esteja visível
Prever legendas comuns independentemente da imagem específica

Mitigações:

Melhor filtragem (filtragem baseada em similaridade com um modelo professor)
Negativos difíceis (para ITM)
Misturar legendas de alta qualidade ou legendas sintéticas detalhadas
Objetivos conscientes de ancoragem (alinhamento região-texto)

Computação e custo

A arquitetura impacta a computação:

Treinamento contrastivo com codificador duplo é relativamente eficiente.
Arquiteturas de fusão e codificador–decodificador são mais pesadas, mas podem produzir melhor raciocínio e geração.

Uma estratégia comum é:

Pré-treinar um codificador duplo em escala enorme para alinhamento robusto.
Adicionar um módulo de fusão/generativo e treinar em dados menores de alta qualidade para ancoragem e seguimento de instruções.

Avaliação: como modelos VLP são medidos

Métricas de recuperação

Para modelos de codificador duplo, benchmarks padrão medem:

Recuperação imagem-para-texto (Recall@K)
Recuperação texto-para-imagem (Recall@K)

Essas métricas se encaixam naturalmente em objetivos contrastivos.

Classificação zero-shot

Uma capacidade-chave é a classificação baseada em prompts em conjuntos como benchmarks no estilo ImageNet. Nuances importantes:

A escolha do prompt pode mudar resultados significativamente.
Ensembling de prompts (múltiplos templates) frequentemente melhora a acurácia.
“Zero-shot” ainda pode refletir sobreposição/vazamento de dataset se os dados de pré-treinamento não forem controlados.

Métricas de legendagem e geração (com ressalvas)

Tarefas de legendagem (por exemplo, COCO) são avaliadas com métricas como BLEU, CIDEr, SPICE etc. Elas se correlacionam de forma imperfeita com julgamento humano, especialmente para:

Correção factual e ancoragem
Detalhe descritivo vs. fluência

Avaliação humana ou avaliação baseada em modelos frequentemente é adicionada em sistemas generativos modernos.

VQA e raciocínio multimodal

Benchmarks de VQA avaliam acurácia das respostas, mas podem ser sensíveis a:

Priors de linguagem (chutes com base em padrões das perguntas)
Vieses do dataset e atalhos

Benchmarks multimodais mais recentes testam cada vez mais robustez, OCR, raciocínio espacial e seguimento de instruções, mas a avaliação continua sendo uma área ativa de pesquisa.

Aplicações e exemplos

1) Busca de imagens e moderação de conteúdo

Um codificador duplo pré-treinado de forma contrastiva pode viabilizar busca semântica:

Buscar imagens por linguagem natural (“um conversível vintage vermelho em uma estrada litorânea”)
Encontrar imagens semelhantes por similaridade de incorporações
Agrupar grandes bibliotecas de mídia

Ele também pode auxiliar em pipelines de moderação ao recuperar conceitos relacionados a políticas, embora isso exija calibração cuidadosa e avaliação específica do domínio.

2) Geração de legendas de imagens e geração de alt-text

Modelos VLP codificador–decodificador podem gerar legendas para acessibilidade:

Alt-text curto (“Um gato dormindo em um sofá.”)
Descrições detalhadas quando necessário (“Um gato tigrado cinza enrolado em um sofá azul perto de uma janela.”)

Isso se conecta diretamente a Geração de Legendas de Imagens, mas o VLP tipicamente fornece o backbone pré-treinado que torna modelos de legendagem fortes com menos dados específicos de tarefa.

3) Perguntas e respostas visuais (VQA)

Modelos de fusão e LLMs multimodais podem responder perguntas ancoradas em uma imagem:

“Quantas pessoas estão na foto?”
“Qual é o nome da marca na garrafa?” (com forte dependência de OCR)
“O semáforo está verde ou vermelho?”

O VLP ajuda porque o modelo já aprendeu conceitos visuais amplos e como eles se mapeiam para a linguagem.

4) Seguimento de instruções multimodal

Assistentes modernos podem seguir instruções como:

“Descreva os problemas de segurança nesta foto de um canteiro de obras.”
“Liste os ingredientes que você consegue ver e sugira uma receita.”

Em muitos sistemas, essa capacidade vem de um pipeline em dois estágios:

VLP para aprender alinhamento imagem–texto e ancoragem básica
Ajuste por instruções (instruction tuning) e otimização por preferência (frequentemente relacionada a Aprendizado por Reforço a partir de Feedback Humano (Reinforcement Learning from Human Feedback, RLHF)) para melhorar utilidade e aderência à intenção do usuário

Modos comuns de falha e limitações

Alucinação na geração: produzir detalhes plausíveis, porém incorretos (especialmente com ancoragem fraca ou dados enviesados).
Correlações espúrias: depender de fundos ou coocorrências em vez do objeto relevante.
Sensibilidade a prompts: a classificação zero-shot pode variar bastante com templates de prompts.
Viés e toxicidade: dados em escala web carregam vieses sociais; filtragem ajuda, mas não resolve completamente o problema.
Preocupações com direitos autorais e privacidade: dados da web podem incluir conteúdo protegido por direitos autorais ou pessoal; conformidade depende da origem dos dados e da governança.

Direções emergentes

Pré-treinamento vídeo–linguagem

Vídeo introduz tempo, movimento e ações:

Alinhar clipes curtos com legendas/narração
Aprender raciocínio temporal (antes/depois, causa/efeito)
Suportar tarefas como QA em vídeo e legendagem de vídeo

Os principais desafios são custo computacional (muitos quadros) e ruído de alinhamento (legendas podem estar atrasadas ou não relacionadas ao conteúdo visível).

Ancoragem e localização

Além do alinhamento “global”, trabalhos mais recentes enfatizam:

Alinhamento região/frase (que parte da imagem dá suporte a quais palavras)
Compreensão de expressões referenciais
Raciocínio espacial

Isso frequentemente exige mudanças arquiteturais (atenção cruzada) ou supervisão adicional (caixas delimitadoras, segmentação, OCR).

Melhorias centradas em dados

Um grande motor de qualidade é melhores dados, não apenas modelos maiores:

Filtragem mais forte com modelos professores
Legendagem sintética com prompts controlados
Amostragem balanceada para reduzir colapso da cauda longa (long-tail) e viés

Resumo

Pré-treinamento Visão–Linguagem é a prática de treinar modelos de visão e linguagem juntos em dados pareados em larga escala para aprender representações alinhadas que transferem para recuperação, classificação, legendagem, VQA e assistentes multimodais. O campo se organiza em torno de:

Objetivos: alinhamento contrastivo, modelagem mascarada, correspondência, legendagem e misturas
Arquiteturas: codificador duplo (recuperação/zero-shot eficiente), codificador de fusão (raciocínio profundo), codificador–decodificador (geração)
Compromissos (tradeoffs): escala vs. qualidade, eficiência vs. interação e os desafios de avaliação e viés

À medida que modelos e conjuntos de dados crescem — e que a avaliação se desloca para raciocínio ancorado e seguimento de instruções — o VLP permanece como um dos pilares centrais que viabilizam sistemas multimodais de IA práticos e de propósito geral.