Pré-treinamento Visão-Linguagem (Vision-Language Pretraining)
Visão geral
Pré-treinamento Visão–Linguagem (Vision–Language Pretraining, VLP) é uma família de métodos que pré-treina conjuntamente modelos visuais e textuais em dados pareados em larga escala — tipicamente imagem–texto (e às vezes vídeo–texto) — para aprender representações nas quais o que é visto e o que é dito ficam alinhados. Após o pré-treinamento, esses modelos transferem bem para tarefas a jusante, como:
- Recuperação imagem–texto (encontrar a legenda para uma imagem, ou a imagem para uma legenda)
- Classificação de imagens zero-shot (zero-shot) via prompts de texto (por exemplo, “uma foto de um golden retriever”)
- Geração de legendas de imagens (ver Geração de Legendas de Imagens)
- Perguntas e respostas visuais (Visual Question Answering, VQA) e raciocínio
- Seguimento de instruções multimodal (modelos de visão + linguagem que conseguem seguir comandos em linguagem natural ancorados em imagens)
O VLP se insere na área mais ampla de Modelos Multimodais de Visão-Linguagem e é um dos principais motores por trás dos sistemas modernos de visão–linguagem “de propósito geral”.
Por que o pré-treinamento em imagem–texto funciona
A ideia central: representações alinhadas
Imagens naturais contêm semântica rica, mas não vêm com rótulos por padrão. Texto associado a imagens (legendas, alt-text, texto ao redor na web, diálogo) é um sinal de supervisão fraco, porém escalável. O VLP usa esses pares para aprender:
- Uma representação visual que captura conceitos de alto nível (objetos, ações, atributos, estilos)
- Uma representação de linguagem que captura semântica e composicionalidade
- Um espaço compartilhado ou um mecanismo de interação em que pares imagem–texto correspondentes recebem pontuações maiores do que pares não correspondentes
Isso transforma dados em escala web em uma forma de supervisão escalável, semelhante em espírito ao Aprendizado Auto-Supervisionado, mas explorando estrutura multimodal (cross-modal).
Transferência e comportamento “zero-shot”
Uma marca do VLP é a transferência: após o pré-treinamento, o modelo pode executar tarefas com pouco ou nenhum treinamento adicional.
Um exemplo canônico é a classificação zero-shot com um modelo pré-treinado de forma contrastiva (no estilo CLIP):
- Incorporar (embedding) uma imagem em um vetor.
- Incorporar vários prompts de nome de classe em vetores (por exemplo, “uma foto de um {rótulo}”).
- Escolher o rótulo cuja incorporação de texto estiver mais próxima da incorporação da imagem.
Isso funciona porque o modelo aprendeu a alinhar imagens com descrições em linguagem natural que tendem a coocorrer com elas durante o pré-treinamento.
Dados: o que é usado em VLP
Fontes típicas
A maioria dos pipelines de VLP depende de conjuntos de dados grandes e ruidosos, como:
- Pares imagem–texto em escala web (alt-text, texto ao redor, nomes de arquivo)
- Conjuntos de dados de legendas curados (por exemplo, COCO Captions) para alinhamento de maior qualidade
- Legendas sintéticas geradas por um gerador de legendas para “impulsionar” (bootstrap) o treinamento (comum em pipelines modernos)
Para vídeo–texto, as fontes incluem:
- Vídeos narrados (por exemplo, conteúdo instrucional)
- Legendas (subtítulos) pareadas com clipes de vídeo
- Transcrições geradas automaticamente alinhadas a segmentos de tempo
Compromisso (tradeoff) entre qualidade e escala dos dados
Uma tensão prática central em VLP é:
- Escala dá cobertura e robustez, mas introduz ruído (legendas incorretas, texto irrelevante, spam).
- Qualidade melhora ancoragem e factualidade, mas é cara e menor.
A prática moderna frequentemente usa uma mistura:
- Dados web enormes e ruidosos para conhecimento amplo
- Dados curados/sintéticos menores para melhorar ancoragem, estilo e seguimento de instruções
Etapas comuns de curadoria de dados incluem:
- Desduplicação (imagens/textos duplicados exatos e quase duplicados)
- Filtragem por idioma, comprimento, profanidade ou heurísticas de similaridade
- Remoção de marcas d’água/logotipos (opcional, dependendo dos objetivos)
- Filtragem de segurança e tratamento de conteúdo sensível
Objetivos comuns de pré-treinamento
Os objetivos de VLP diferem em como conectam imagens e texto. Muitos sistemas combinam vários objetivos.
1) Aprendizado contrastivo (alinhamento com codificador duplo)
VLP contrastivo treina um codificador de imagem e um codificador de texto para produzir incorporações que correspondem para amostras pareadas e não correspondem caso contrário. Isso é frequentemente implementado com uma perda no estilo InfoNCE (ver Aprendizado Contrastivo).
Dado um lote (batch) de (N) pares alinhados ((I_i, T_i)), compute incorporações de imagem (v_i) e incorporações de texto (t_i). A similaridade é tipicamente similaridade cosseno escalonada por uma temperatura (\tau):
[ s_{ij} = \frac{v_i \cdot t_j}{\tau} ]
A perda incentiva (s_{ii}) a ser grande em relação a (s_{ij}) para (j \neq i) (e frequentemente de forma simétrica para texto-para-imagem).
Pontos fortes
- Excelente para recuperação e classificação zero-shot
- Escala de forma eficiente (especialmente com lotes grandes)
- As incorporações são reutilizáveis para muitas tarefas a jusante
Limitações
- Não treina diretamente geração (legendagem) nem raciocínio de granulação fina
- O alinhamento pode ser “global”: pode perder ancoragem em nível de região, a menos que seja aumentado
Exemplo prático: classificação zero-shot
# Pseudocode (CLIP-style)
image_emb = image_encoder(image) # [d]
text_embs = text_encoder(prompts) # [num_classes, d]
# Normalize for cosine similarity
image_emb = image_emb / norm(image_emb)
text_embs = text_embs / norm(text_embs, axis=-1, keepdims=True)
scores = image_emb @ text_embs.T # cosine similarities
pred = argmax(scores)
Os prompts importam: “uma foto de um {rótulo}” muitas vezes funciona melhor do que o rótulo isolado. Engenharia de prompts ou ensembling de prompts pode melhorar a acurácia de maneira perceptível.
2) Modelagem mascarada (entendimento via reconstrução)
A modelagem mascarada adapta ideias de Modelagem de Linguagem Mascarada (Masked Language Modeling, MLM) e modelagem mascarada de imagens para dados multimodais:
- Modelagem de Linguagem Mascarada (Masked Language Modeling, MLM): mascarar palavras e prevê-las usando a imagem + o texto ao redor.
- Modelagem Mascarada de Imagens: mascarar patches/regiões da imagem e reconstruí-los (ou prever tokens discretos) condicionados ao texto.
Esses objetivos incentivam raciocínio multimodal de granulação fina, pois o modelo precisa usar pistas da imagem para preencher lacunas no texto (e vice-versa).
Pontos fortes
- Ancoragem em nível de token/região mais forte do que o puramente contrastivo
- Útil para tarefas como VQA e ancoragem de frases
Limitações
- Frequentemente mais lento do que o treinamento contrastivo
- Objetivos de reconstrução podem priorizar detalhes de baixo nível, a menos que sejam cuidadosamente projetados
3) Correspondência imagem–texto (Image–Text Matching, ITM) / alinhamento binário
Alguns modelos treinam um classificador explícito para prever se uma imagem e um texto pertencem juntos (correspondência vs. não correspondência). Isso geralmente é combinado com “negativos difíceis” (hard negatives) (texto não correspondente que é semanticamente próximo).
Pontos fortes
- Melhora o alinhamento de granulação fina e reduz correspondências por “atalhos”
- Útil em pipelines de recuperação (reclassificação)
Limitações
- Requer amostragem cuidadosa de negativos
- Pode se tornar frágil se os negativos forem fáceis demais ou difíceis demais
4) Legendagem / geração autorregressiva
Outra família de métodos de VLP treina o modelo para gerar texto dado uma imagem, usando uma perda padrão de modelagem de linguagem:
[ \mathcal{L} = -\sum_{t} \log p(w_t \mid w_{<t}, I) ]
Isso é intimamente relacionado ao treinamento da Arquitetura Transformer, mas condicionado à entrada visual.
Pontos fortes
- Otimiza diretamente para tarefas de geração (legendagem, explicações)
- Mais alinhado com assistentes multimodais e seguimento de instruções
Limitações
- Mais caro do que o pré-treinamento contrastivo no estilo recuperação
- Pode alucinar se o modelo depender demais de priors de linguagem
- Exige mecanismos fortes de ancoragem e bons dados
5) Misturas de objetivos (comum na prática)
Muitos sistemas bem-sucedidos misturam objetivos, por exemplo:
- Alinhamento contrastivo (semântica global)
- ITM (discriminação de correspondência de granulação fina)
- Legendagem (capacidade de geração)
Isso tende a produzir representações mais “de propósito geral” do que qualquer objetivo único isoladamente.
Arquiteturas: como visão e linguagem são conectadas
Arquiteturas de VLP geralmente se encaixam em alguns padrões.
Modelos de codificador duplo (duas torres)
Estrutura
- Um codificador de imagem produz uma única incorporação (ou agregada).
- Um codificador de texto produz uma única incorporação.
- A similaridade é computada em um espaço compartilhado.
Frequentemente usa um Transformer de Visão (Vision Transformer, ViT) ou uma CNN para imagens, e um Transformer para texto.
Onde se destaca
- Recuperação rápida em escala (indexar incorporações)
- Classificação zero-shot via prompts
- Eficiência de servir: imagem e texto podem ser codificados de forma independente
Principal limitação
- Interação profunda limitada entre modalidades (a menos que componentes adicionais sejam adicionados)
Codificador de fusão (atenção cruzada / fluxo único)
Estrutura
- Concatenar tokens visuais (patches/regiões) e tokens de texto
- Passá-los por um Transformer que permite atenção cruzada (cross-attention) (todos os tokens atendem a todos os tokens)
Onde se destaca
- VQA, expressões referenciais, tarefas com forte exigência de ancoragem
- Raciocínio que precisa de interações em nível de token
Principal limitação
- Mais caro na inferência, especialmente para recuperação (não dá para pré-computar incorporações independentes com facilidade)
Codificador–decodificador (codificador de visão + decodificador de texto)
Estrutura
- Um codificador de visão produz tokens visuais.
- Um decodificador de texto gera texto de forma autorregressiva, atendendo aos tokens visuais (atenção cruzada).
Isso é comum para legendagem e assistentes multimodais.
Onde se destaca
- Legendagem, respostas longas, seguimento de instruções
- Interface natural: “dada esta imagem, gere…”
Principal limitação
- Treinamento é intensivo em computação
- Precisa de alinhamento cuidadoso para reduzir alucinações
Projetos híbridos (recuperação + geração, ou adaptadores modulares)
A prática recente frequentemente combina:
- Um codificador de imagem forte pré-treinado
- Um LLM (large language model) forte pré-treinado
- Um “adaptador” (adapter) aprendido ou um pequeno módulo que mapeia características visuais para o espaço de tokens do LLM
Essa abordagem modular pode ser atraente quando você quer reutilizar componentes pré-treinados poderosos e treinar apenas um pequeno conector.
Treinamento em escala: considerações práticas
Tamanho de lote, negativos e treinamento distribuído
O VLP contrastivo se beneficia fortemente de muitos negativos (outras amostras no lote). Isso leva praticantes a:
- Tamanhos de lote grandes (frequentemente em muitas GPUs)
- Bancos de memória ou agregação entre dispositivos
- Escalonamento cuidadoso de temperatura e normalização
Pré-processamento de imagens e aumentos
Aumentos ajudam a generalização, mas podem quebrar o alinhamento com o texto se forem fortes demais (por exemplo, recortes pesados podem remover o objeto descrito). Escolhas típicas:
- Recorte aleatório com redimensionamento (força moderada)
- Color jitter (leve)
- Inversão horizontal (quando a semântica permitir)
- Compromissos (tradeoffs) de resolução: maior resolução melhora ancoragem fina, mas custa computação
Pré-processamento de legendas/texto
Pipelines de texto frequentemente aplicam:
- Filtragem por idioma (manter idiomas específicos ou suporte multilíngue)
- Restrições de comprimento
- Remoção de texto padronizado (“clique aqui”, “a imagem pode conter…”)
- Tokenização consistente com o modelo de linguagem
Ruído nos dados e “lacunas de alinhamento”
Texto da web pode estar apenas fracamente relacionado à imagem. Modelos podem aprender atalhos:
- Associar “snowboard” a fundos nevados mesmo que nenhuma prancha esteja visível
- Prever legendas comuns independentemente da imagem específica
Mitigações:
- Melhor filtragem (filtragem baseada em similaridade com um modelo professor)
- Negativos difíceis (para ITM)
- Misturar legendas de alta qualidade ou legendas sintéticas detalhadas
- Objetivos conscientes de ancoragem (alinhamento região-texto)
Computação e custo
A arquitetura impacta a computação:
- Treinamento contrastivo com codificador duplo é relativamente eficiente.
- Arquiteturas de fusão e codificador–decodificador são mais pesadas, mas podem produzir melhor raciocínio e geração.
Uma estratégia comum é:
- Pré-treinar um codificador duplo em escala enorme para alinhamento robusto.
- Adicionar um módulo de fusão/generativo e treinar em dados menores de alta qualidade para ancoragem e seguimento de instruções.
Avaliação: como modelos VLP são medidos
Métricas de recuperação
Para modelos de codificador duplo, benchmarks padrão medem:
- Recuperação imagem-para-texto (Recall@K)
- Recuperação texto-para-imagem (Recall@K)
Essas métricas se encaixam naturalmente em objetivos contrastivos.
Classificação zero-shot
Uma capacidade-chave é a classificação baseada em prompts em conjuntos como benchmarks no estilo ImageNet. Nuances importantes:
- A escolha do prompt pode mudar resultados significativamente.
- Ensembling de prompts (múltiplos templates) frequentemente melhora a acurácia.
- “Zero-shot” ainda pode refletir sobreposição/vazamento de dataset se os dados de pré-treinamento não forem controlados.
Métricas de legendagem e geração (com ressalvas)
Tarefas de legendagem (por exemplo, COCO) são avaliadas com métricas como BLEU, CIDEr, SPICE etc. Elas se correlacionam de forma imperfeita com julgamento humano, especialmente para:
- Correção factual e ancoragem
- Detalhe descritivo vs. fluência
Avaliação humana ou avaliação baseada em modelos frequentemente é adicionada em sistemas generativos modernos.
VQA e raciocínio multimodal
Benchmarks de VQA avaliam acurácia das respostas, mas podem ser sensíveis a:
- Priors de linguagem (chutes com base em padrões das perguntas)
- Vieses do dataset e atalhos
Benchmarks multimodais mais recentes testam cada vez mais robustez, OCR, raciocínio espacial e seguimento de instruções, mas a avaliação continua sendo uma área ativa de pesquisa.
Aplicações e exemplos
1) Busca de imagens e moderação de conteúdo
Um codificador duplo pré-treinado de forma contrastiva pode viabilizar busca semântica:
- Buscar imagens por linguagem natural (“um conversível vintage vermelho em uma estrada litorânea”)
- Encontrar imagens semelhantes por similaridade de incorporações
- Agrupar grandes bibliotecas de mídia
Ele também pode auxiliar em pipelines de moderação ao recuperar conceitos relacionados a políticas, embora isso exija calibração cuidadosa e avaliação específica do domínio.
2) Geração de legendas de imagens e geração de alt-text
Modelos VLP codificador–decodificador podem gerar legendas para acessibilidade:
- Alt-text curto (“Um gato dormindo em um sofá.”)
- Descrições detalhadas quando necessário (“Um gato tigrado cinza enrolado em um sofá azul perto de uma janela.”)
Isso se conecta diretamente a Geração de Legendas de Imagens, mas o VLP tipicamente fornece o backbone pré-treinado que torna modelos de legendagem fortes com menos dados específicos de tarefa.
3) Perguntas e respostas visuais (VQA)
Modelos de fusão e LLMs multimodais podem responder perguntas ancoradas em uma imagem:
- “Quantas pessoas estão na foto?”
- “Qual é o nome da marca na garrafa?” (com forte dependência de OCR)
- “O semáforo está verde ou vermelho?”
O VLP ajuda porque o modelo já aprendeu conceitos visuais amplos e como eles se mapeiam para a linguagem.
4) Seguimento de instruções multimodal
Assistentes modernos podem seguir instruções como:
- “Descreva os problemas de segurança nesta foto de um canteiro de obras.”
- “Liste os ingredientes que você consegue ver e sugira uma receita.”
Em muitos sistemas, essa capacidade vem de um pipeline em dois estágios:
- VLP para aprender alinhamento imagem–texto e ancoragem básica
- Ajuste por instruções (instruction tuning) e otimização por preferência (frequentemente relacionada a Aprendizado por Reforço a partir de Feedback Humano (Reinforcement Learning from Human Feedback, RLHF)) para melhorar utilidade e aderência à intenção do usuário
Modos comuns de falha e limitações
- Alucinação na geração: produzir detalhes plausíveis, porém incorretos (especialmente com ancoragem fraca ou dados enviesados).
- Correlações espúrias: depender de fundos ou coocorrências em vez do objeto relevante.
- Sensibilidade a prompts: a classificação zero-shot pode variar bastante com templates de prompts.
- Viés e toxicidade: dados em escala web carregam vieses sociais; filtragem ajuda, mas não resolve completamente o problema.
- Preocupações com direitos autorais e privacidade: dados da web podem incluir conteúdo protegido por direitos autorais ou pessoal; conformidade depende da origem dos dados e da governança.
Direções emergentes
Pré-treinamento vídeo–linguagem
Vídeo introduz tempo, movimento e ações:
- Alinhar clipes curtos com legendas/narração
- Aprender raciocínio temporal (antes/depois, causa/efeito)
- Suportar tarefas como QA em vídeo e legendagem de vídeo
Os principais desafios são custo computacional (muitos quadros) e ruído de alinhamento (legendas podem estar atrasadas ou não relacionadas ao conteúdo visível).
Ancoragem e localização
Além do alinhamento “global”, trabalhos mais recentes enfatizam:
- Alinhamento região/frase (que parte da imagem dá suporte a quais palavras)
- Compreensão de expressões referenciais
- Raciocínio espacial
Isso frequentemente exige mudanças arquiteturais (atenção cruzada) ou supervisão adicional (caixas delimitadoras, segmentação, OCR).
Melhorias centradas em dados
Um grande motor de qualidade é melhores dados, não apenas modelos maiores:
- Filtragem mais forte com modelos professores
- Legendagem sintética com prompts controlados
- Amostragem balanceada para reduzir colapso da cauda longa (long-tail) e viés
Resumo
Pré-treinamento Visão–Linguagem é a prática de treinar modelos de visão e linguagem juntos em dados pareados em larga escala para aprender representações alinhadas que transferem para recuperação, classificação, legendagem, VQA e assistentes multimodais. O campo se organiza em torno de:
- Objetivos: alinhamento contrastivo, modelagem mascarada, correspondência, legendagem e misturas
- Arquiteturas: codificador duplo (recuperação/zero-shot eficiente), codificador de fusão (raciocínio profundo), codificador–decodificador (geração)
- Compromissos (tradeoffs): escala vs. qualidade, eficiência vs. interação e os desafios de avaliação e viés
À medida que modelos e conjuntos de dados crescem — e que a avaliação se desloca para raciocínio ancorado e seguimento de instruções — o VLP permanece como um dos pilares centrais que viabilizam sistemas multimodais de IA práticos e de propósito geral.