Conjuntos de Dados Multimodais
Conjuntos de dados multimodais (multimodal datasets) são coleções de exemplos que combinam duas ou mais modalidades (modalities) — comumente texto, imagens, áudio e vídeo — para que modelos possam aprender relações dentro de uma modalidade (por exemplo, estrutura de imagem) e entre modalidades (por exemplo, como uma legenda descreve uma imagem, ou como o movimento dos lábios se alinha à fala). Eles são centrais para modelos fundacionais multimodais (multimodal foundation models) modernos e para aplicações como perguntas e respostas visuais (visual question answering), busca de imagens/vídeos (image/video search), fala para texto com contexto (speech-to-text with context) e interação humano–robô (human–robot interaction).
Este artigo foca em como conjuntos de dados multimodais são estruturados (esquemas (schemas)), por que o alinhamento (alignment) é difícil e as armadilhas mais comuns que causam avaliações enganosas, risco de privacidade ou fragilidade de modelos.
O que torna um conjunto de dados “multimodal”?
Um conjunto de dados é multimodal quando cada “exemplo” inclui múltiplas visões do mesmo evento ou entidade subjacente, como:
- Uma foto de produto (imagem) + título (texto) + avaliação de cliente (texto) + clipe de unboxing (vídeo) + narração (áudio)
- Uma gravação de reunião (áudio) + transcrição (texto) + slides compartilhados (imagens) + diarização de locutor (speaker diarization) (rótulos (labels))
- Uma cena de direção (vídeo) + nuvem de pontos LiDAR (LiDAR point cloud) (3D) + GPS/IMU (série temporal (time series)) + caixas delimitadoras (bounding boxes) (anotações (annotations))
Dados pareados vs. não pareados
Conjuntos de dados multimodais frequentemente se enquadram em uma destas categorias:
- Conjuntos de dados pareados (alinhados): Cada amostra contém modalidades correspondentes (por exemplo, (imagem, legenda)). Eles são ideais para aprendizado supervisionado (supervised learning) e objetivos de alinhamento intermodal (cross-modal alignment objectives).
- Conjuntos de dados não pareados (fracamente associados): As modalidades são coletadas do mesmo domínio, mas não estão alinhadas um-para-um (por exemplo, muitas imagens e muitas legendas). Eles ainda podem ser úteis para supervisão fraca (weak supervision) ou objetivos auto-supervisionados (self-supervised objectives), mas exigem um desenho cuidadoso para evitar o aprendizado de correlações espúrias.
O que “alinhamento” significa
Alinhamento é o mapeamento entre modalidades:
- Alinhamento em nível de instância: Esta legenda descreve esta imagem.
- Alinhamento em nível de região: Esta frase se refere a esta caixa delimitadora.
- Alinhamento temporal: Este token de transcrição se alinha a este intervalo de tempo em áudio/vídeo.
- Alinhamento entre documentos: Esta pergunta se refere a esta figura em um artigo.
O alinhamento costuma ser a parte mais cara da construção de conjuntos de dados multimodais — e a mais frágil.
Por que conjuntos de dados multimodais importam
Dados multimodais permitem que modelos aprendam representações que conectam modalidades, viabilizando:
- Recuperação (retrieval): busca texto→imagem, busca imagem→texto, busca vídeo→texto
- Compreensão ancorada (grounded understanding): vincular linguagem a evidências visuais/sonoras
- Geração (generation): legendagem de imagens, sumarização de vídeos, texto-para-fala com contexto
- Percepção robusta (robust perception): combinar áudio + vídeo melhora o desempenho em ruído
- Sistemas voltados a pessoas (human-facing systems): assistentes que raciocinam sobre capturas de tela, documentos, chamadas ou feeds de câmera
Muitos sistemas recentes usam arquiteturas baseadas na Arquitetura Transformer (Transformer Architecture), frequentemente treinadas com objetivos como Aprendizado Contrastivo (Contrastive Learning) e Aprendizado Auto-supervisionado (Self-Supervised Learning).
Famílias comuns de tarefas e como os conjuntos de dados diferem
Tarefas diferentes implicam esquemas, rótulos e armadilhas de avaliação diferentes:
- Legendagem de imagens: uma imagem, múltiplas legendas humanas (diversidade importa)
- Perguntas e Respostas Visuais (Visual Question Answering, VQA): imagem + pergunta + resposta(s), frequentemente com múltiplos anotadores
- Recuperação multimodal: pares (imagem,texto) em grande escala; tolerância a ruído torna-se um parâmetro-chave de projeto
- Reconhecimento de fala audiovisual: quadros de vídeo + forma de onda de áudio + transcrição + rótulos de falante + carimbos de tempo
- Compreensão de vídeo: sequências longas; rótulos em nível de segmento (ações, eventos), limites temporais
- IA para documentos (Document AI): páginas como imagens + texto de OCR + estrutura de layout + rótulos de entidades
- Diálogo multimodal (multimodal dialogue): turnos conversacionais que se referem a imagens/vídeos; rastreamento de correferência é essencial
Um único conjunto de dados pode suportar múltiplas tarefas, mas apenas se o esquema e as divisões (splits) anteciparem o reuso.
Esquemas: como conjuntos de dados multimodais normalmente são organizados
Um bom esquema multimodal é (1) passível de junção, (2) auditável, (3) versionável e (4) resiliente a modalidades ausentes.
Princípio: separar *ativos (assets)* de *metadados (metadata)*
Ativos binários grandes (imagens/áudio/vídeo) geralmente são armazenados em armazenamento de objetos (object storage) ou em fragmentos (shards), referenciados por URI e hash. Metadados e anotações ficam em registros estruturados.
Padrões comuns:
- Manifesto + ativos (recomendado): metadados em JSONL/Parquet apontam para blobs.
- Amostras fragmentadas (comum em escala): fragmentos tar do WebDataset ou TFRecords contendo tanto bytes de mídia quanto metadados.
- Modelo relacional (para anotação complexa): tabelas separadas para ativos, anotações e alinhamentos.
Um manifesto JSONL mínimo (imagem + texto)
{"id":"0001","image_uri":"s3://bucket/img/0001.jpg","image_sha256":"...","captions":["a dog jumps over a log","a brown dog leaping outdoors"],"source":"user_upload","license":"cc-by-4.0"}
{"id":"0002","image_uri":"s3://bucket/img/0002.jpg","image_sha256":"...","captions":["two people sitting at a table"],"source":"web","license":"unknown"}
Campos-chave a incluir desde cedo (mesmo que você não os use imediatamente):
- id estável
- URIs para cada modalidade (ou bytes embutidos se estiver fragmentado)
- Hashes para integridade/deduplicação
- Proveniência (
source, horário de coleta, uploader) - Metadados de licença/direitos
- Sinalizadores de qualidade e filtros aplicados opcionais
Para expectativas de documentação, veja Documentação de Conjunto de Dados (Datasheets).
Adicionando alinhamento temporal (vídeo + áudio + transcrição)
Conjuntos de dados temporais se beneficiam de estruturas explícitas de segmentos:
{
"id": "clip_91",
"video_uri": "s3://bucket/video/clip_91.mp4",
"audio_uri": "s3://bucket/audio/clip_91.wav",
"fps": 30,
"audio_sample_rate": 16000,
"segments": [
{"t0": 0.00, "t1": 2.10, "speaker": "spk1", "text": "welcome back everyone"},
{"t0": 2.10, "t1": 3.40, "speaker": "spk2", "text": "today we'll review the chart"}
]
}
Dicas práticas:
- Armazene timestamps em segundos (float) com uma política de arredondamento definida.
- Mantenha as taxas de amostragem originais e forneça visões derivadas (por exemplo, áudio reamostrado) como artefatos separados para evitar ambiguidade.
Lidando com relações um-para-muitos e muitos-para-muitos
Conjuntos de dados multimodais frequentemente contêm:
- Uma imagem → muitas legendas
- Um vídeo → muitos segmentos → muitos rótulos
- Um documento → muitas páginas → muitas entidades
Represente isso explicitamente em vez de forçar tudo em um único registro plano. Em Parquet, você pode usar listas/structs aninhados; em um desenho relacional, use tabelas de junção (por exemplo, image_id ↔ caption_id).
Conceitos recomendados de esquema
Independentemente do formato de armazenamento, conjuntos de dados multimodais se beneficiam destas entidades conceituais:
- Ativo: um objeto de mídia (arquivo de imagem/áudio/vídeo/texto), com checksum e proveniência
- Exemplo: uma instância de treinamento composta por um ou mais ativos + alinhamentos opcionais
- Anotação: rótulos, legendas, pares de QA, caixas delimitadoras, segmentos etc.
- Alinhamento: mapeamento entre modalidades (spans de tokens ↔ regiões; tempo de transcrição ↔ quadros)
- Pertencimento a split: atribuição treino/val/test na “unidade” correta (veja vazamento abaixo)
Coleta de dados e rotulagem em cenários multimodais
A rotulagem (labeling) multimodal é mais difícil porque anotadores precisam coordenar entre canais:
- Criadores de legendas precisam de orientação clara sobre linguagem descritiva vs. interpretativa.
- VQA exige tratamento cuidadoso de ambiguidade e múltiplas respostas válidas.
- Transcrição de áudio/vídeo exige alinhamento temporal e manejo de ruído.
Estratégias comuns:
- Pipelines em múltiplas etapas: coletar pares brutos → filtrar → rotular subconjunto de alta qualidade → expandir iterativamente.
- Supervisão fraca: usar texto ao redor (por exemplo, alt text, títulos) como rótulos ruidosos e depois limpar.
- Rótulos por consenso: múltiplos anotadores + adjudicação para tarefas ambíguas.
Para melhores práticas mais amplas de rotulagem, veja Coleta de Dados e Rotulagem.
Armadilhas (e como evitá-las)
1) Desalinhamento e “falhas silenciosas (silent failures)”
Desalinhamento acontece quando o conjunto de dados diz que modalidades correspondem, mas elas não correspondem:
- Legenda errada anexada à imagem (incompatibilidade de IDs)
- Indexação de quadros off-by-one em clipes de vídeo
- Áudio deslocado em 200 ms em relação ao vídeo
- Texto de OCR extraído da versão errada da página
Mitigações:
- Armazene e valide checksums e dimensões (duração, fps, taxa de amostragem).
- Adicione testes unitários (unit tests) para leitores de conjunto de dados (dataset readers) (por exemplo, verificar se o tempo final da transcrição ≤ duração do clipe).
- Faça amostragem e audite manualmente o alinhamento com regularidade.
2) Vazamento treino/teste por duplicatas ou quase-duplicatas
Vazamento é especialmente comum em corpora multimodais raspados da web ou derivados de conteúdo de usuários:
- A mesma imagem aparece com nomes de arquivo diferentes em splits distintos
- O mesmo vídeo é reenviado com pequenas edições
- Legendas repetidas literalmente em muitas imagens (“frases de estoque”)
- Vazamento em nível de quadro: clipes do mesmo vídeo original separados entre treino e teste
Mitigações:
- Deduplicate usando hashes perceptuais (perceptual hashes) (imagens), impressões digitais de áudio e similaridade de incorporações (embeddings).
- Faça splits por um id de grupo de nível mais alto (por exemplo,
video_id,document_id,uploader_id,product_id), não por amostra individual.
Isso interage fortemente com reprodutibilidade; acompanhe regras e hashes de deduplicação via Versionamento de Dados.
3) Correlações espúrias entre modalidades
Modelos podem “trapacear” explorando atalhos:
- Em VQA, a resposta pode ser previsível apenas a partir do texto da pergunta (viés de conjunto de dados (dataset bias)).
- Em conjuntos de dados de vídeo, música de fundo pode correlacionar com um rótulo de ação.
- Marcas d’água (watermarks) ou elementos de UI podem revelar o rótulo da classe.
Mitigações:
- Execute ablações de modalidade (modality ablations): avalie baselines apenas-texto, apenas-imagem, apenas-áudio.
- Meça e documente vieses; considere rebalancear ou coletar contraexemplos.
- Use conjuntos de avaliação adversariais (adversarial) ou contrafactuais (counterfactual) quando viável.
4) Modalidades ausentes e disponibilidade inconsistente
Dados multimodais do mundo real são bagunçados:
- Alguns registros não têm faixa de áudio ou têm quadros corrompidos
- OCR falha em algumas páginas
- Legendas fornecidas por usuários estão ausentes ou vazias
Projete para ausência (missingness):
- Inclua flags
availablepor modalidade e códigos de erro. - Decida se a ausência será filtrada, imputada ou mantida como um sinal significativo.
- Garanta que o pipeline de treinamento lide com modalidades ausentes de forma determinística.
5) Variação de qualidade entre modalidades
Um conjunto de dados pode ter “alta qualidade” em texto, mas baixa qualidade em áudio, levando a sinais de aprendizado ruidosos.
Exemplos:
- Transcrições geradas automaticamente com alta taxa de erro de palavras
- Miniaturas de baixa resolução pareadas com legendas detalhadas
- Áudio fortemente comprimido causando perda de fonemas
Mitigações:
- Acompanhe métricas de qualidade específicas por modalidade (por exemplo, estimativas de SNR, confiança de OCR, escores de desfoque).
- Armazene versões brutas e normalizadas e documente transformações em Pipelines de Dados (ETL/ELT para aprendizado de máquina).
6) Questões de privacidade e consentimento (frequentemente piores em multimodal)
Dados multimodais frequentemente contêm informações sensíveis:
- Rostos, placas de veículos, interiores de casas (imagens/vídeo)
- Nomes, endereços, números de conta (texto/OCR)
- Vozes (áudio é biométrico em muitos contextos)
- Capturas de tela com conteúdo confidencial
Mitigações:
- Aplique revisões de privacidade e práticas de minimização de Privacidade.
- Considere redação (desfoque, beep) ou evite coletar a modalidade por completo.
- Restrinja acesso e registre uso conforme Segurança de Dados.
- Registre consentimento e uso permitido; imponha limitações de propósito via Governança de Dados.
7) Ambiguidade de licenciamento e proveniência
Conjuntos de dados multimodais em escala web frequentemente sofrem com direitos pouco claros:
- Imagens sob licenças restritivas
- Vídeos com trilhas de áudio protegidas por direitos autorais
- “Acessível publicamente” não significa “permitido reutilizar”
Mitigações:
- Armazene metadados de licença e proveniência no nível de ativo, não apenas no nível do conjunto de dados.
- Mantenha timestamps de coleta e URLs de origem (com controles de acesso quando necessário).
- Se usar coleta na web, siga orientações em Dados da Web e Raspagem.
8) Ambiguidade de anotação e discordância de avaliadores
Tarefas multimodais podem ser inerentemente ambíguas (por exemplo, “O que está acontecendo?” em um clipe curto). O ground-truth pode exigir:
- Múltiplas respostas com regras de pontuação
- Treinamento calibrado de anotadores
- Opções claras de “desconhecido/incerto”
Documente ambiguidade e políticas de rotulagem no seu datasheet; caso contrário, números de benchmark podem ser enganosos.
Formatos de armazenamento e padrões de acesso na prática
As escolhas dependem de escala, necessidades de throughput e ferramental:
- JSONL: manifestos simples e legíveis por humanos; bom para protótipos.
- Parquet: colunar, comprimido, varredura rápida; bom para análises e metadados grandes.
- TFRecord / RecordIO: comum em ecossistemas TensorFlow; leituras sequenciais eficientes.
- WebDataset (fragmentos tar): popular para treinamento multimodal em grande escala; cada amostra empacota múltiplos arquivos.
Um híbrido comum é: metadados em Parquet + ativos em armazenamento de objetos, ou fragmentos do WebDataset + “índice” em Parquet para auditoria.
Exemplo: esquema em estilo Parquet com junções (conceitual)
examples:example_id,split,group_id,source,filters_appliedassets:asset_id,example_id,modality,uri,sha256,mime,duration_s,width,heightannotations:annotation_id,example_id,type,payload_json,annotator_id,confidencealignments:alignment_id,example_id,from_modality,to_modality,mapping_json
Essa estrutura facilita redividir (re-split), refiltrar (re-filter) ou adicionar novas anotações sem reescrever a mídia.
Pré-processamento: normalização sem perder significado
Cada modalidade tem um pré-processamento padrão, mas conjuntos de dados multimodais exigem consistência:
- Texto: normalização, identificação de idioma (language ID), tokenização (tokenization) (registre a versão do tokenizador)
- Imagens: espaço de cor, estratégia de redimensionamento/recorte (recorte central (center crop) vs. preenchimento com barras (letterbox))
- Áudio: reamostragem (resampling), normalização de loudness (loudness normalization), corte de silêncio (silence trimming) (pode mudar o alinhamento!)
- Vídeo: conversão de taxa de quadros (frame rate conversion), extração de clipes (clip extraction) (mantenha os timestamps originais!)
Um erro comum é aplicar transformações que quebram o alinhamento (por exemplo, cortar silêncio inicial no áudio mantendo os timestamps originais da transcrição). Quando você precisar transformar, ou:
- recompute alinhamentos, ou
- armazene um mapeamento de transformação para que timestamps possam ser convertidos de forma confiável.
Splits e avaliação: a unidade de generalização importa
Em conjuntos de dados multimodais, fazer split aleatório no nível de amostra frequentemente é errado. Unidades melhores de split incluem:
- Por usuário/uploader (evita vazamento por personalização)
- Por documento/vídeo/item de origem (evita vazamento em nível de segmento)
- Por tempo (mais realista para produção; suporta detecção de drift)
Considere também:
- Avaliar com negativos difíceis (hard negatives) para recuperação (imagens similares com legendas diferentes).
- Usar avaliação humana para tarefas generativas quando métricas automáticas não são confiáveis.
- Reportar desempenho por subgrupo e por faixa de qualidade de modalidade para entender modos de falha.
Monitorar mudanças ao longo do tempo se conecta diretamente a Qualidade de Dados e Drift.
Exemplos práticos
Exemplo 1: Construindo um conjunto de dados multimodal de QA de produtos
Objetivo: responder perguntas de usuários usando imagens de produto + especificações textuais.
Destaques de esquema:
product_idcomo a chave de split (evitar o mesmo produto em treino e teste)- Ativos:
main_image,gallery_images,spec_text,manual_pdf_pages - Anotações: pergunta, resposta, ponteiros de evidência de suporte (por exemplo, qual região da imagem ou seção de especificação)
Armadilhas:
- Vazamento via imagens de banco idênticas compartilhadas entre produtos (deduplicate com hashes perceptuais)
- Erros de OCR em manuais; armazene confiança de OCR e faça fallback para texto do PDF quando disponível
- Privacidade: fotos enviadas por usuários podem incluir rostos ou endereços residenciais
Exemplo 2: Compreensão de reuniões audiovisual
Objetivo: sumarizar reuniões com referência aos slides.
Necessidades-chave:
- Alinhamento temporal preciso entre segmentos de transcrição e mudanças de slide
- Metadados de diarização de locutor (IDs de falante, mas evite armazenar nomes reais a menos que necessário)
- Políticas de consentimento e retenção são críticas devido a conteúdo sensível
Armadilhas:
- Imagens de slides podem conter informação confidencial — controle de acesso e fluxos de redação são essenciais.
- Mudança de domínio: microfones/câmeras diferentes causam quedas de desempenho se não estiverem representados no treinamento.
Dados sintéticos e multimodais aumentados
Dados sintéticos (synthetic data) podem preencher lacunas (eventos raros, restrições de privacidade), mas adicionam seus próprios riscos:
- Legendas sintéticas podem ser estilisticamente uniformes e fazer modelos superajustarem a peculiaridades do gerador.
- Texto-para-fala pode distorcer distribuições de prosódia.
- Imagens geradas podem introduzir artefatos que viram atalhos.
Use dados sintéticos deliberadamente, acompanhe proveniência e avalie em dados reais. Veja Dados Sintéticos.
Checklist de melhores práticas operacionais
- Defina a unidade de alinhamento (instância/região/tempo) e codifique-a explicitamente.
- Armazene proveniência e licenças por ativo; não dependa de notas no nível do conjunto de dados.
- Projete para modalidades ausentes com flags e tratamento determinístico.
- Evite vazamento com splits baseados em grupos e deduplicação robusta.
- Acompanhe transformações (o que mudou, como, e qual versão fez) via Versionamento de Dados.
- Documente uso pretendido e limitações com Documentação de Conjunto de Dados (Datasheets).
- Proteja e governe o acesso para conteúdo multimodal sensível usando Segurança de Dados e Governança de Dados.
- Audite continuamente qualidade e drift, especialmente ao coletar dados de fontes mutáveis (Qualidade de Dados e Drift).
Resumo
Conjuntos de dados multimodais viabilizam aprendizado intermodal poderoso, mas são mais difíceis de construir do que conjuntos de dados unimodais porque exigem alinhamento correto, projeto cuidadoso de esquema e governança robusta em torno de privacidade, licenciamento e vazamento. Trate o esquema como um contrato de longo prazo: se você armazenar IDs estáveis, proveniência, hashes, metadados específicos por modalidade e estruturas explícitas de alinhamento, você consegue escalar coleta e rotulagem, depurar falhas e evoluir o conjunto de dados sem comprometer reprodutibilidade ou confiança.