Conjuntos de Dados Multimodais

Conjuntos de dados multimodais (multimodal datasets) são coleções de exemplos que combinam duas ou mais modalidades (modalities) — comumente texto, imagens, áudio e vídeo — para que modelos possam aprender relações dentro de uma modalidade (por exemplo, estrutura de imagem) e entre modalidades (por exemplo, como uma legenda descreve uma imagem, ou como o movimento dos lábios se alinha à fala). Eles são centrais para modelos fundacionais multimodais (multimodal foundation models) modernos e para aplicações como perguntas e respostas visuais (visual question answering), busca de imagens/vídeos (image/video search), fala para texto com contexto (speech-to-text with context) e interação humano–robô (human–robot interaction).

Este artigo foca em como conjuntos de dados multimodais são estruturados (esquemas (schemas)), por que o alinhamento (alignment) é difícil e as armadilhas mais comuns que causam avaliações enganosas, risco de privacidade ou fragilidade de modelos.

O que torna um conjunto de dados “multimodal”?

Um conjunto de dados é multimodal quando cada “exemplo” inclui múltiplas visões do mesmo evento ou entidade subjacente, como:

Uma foto de produto (imagem) + título (texto) + avaliação de cliente (texto) + clipe de unboxing (vídeo) + narração (áudio)
Uma gravação de reunião (áudio) + transcrição (texto) + slides compartilhados (imagens) + diarização de locutor (speaker diarization) (rótulos (labels))
Uma cena de direção (vídeo) + nuvem de pontos LiDAR (LiDAR point cloud) (3D) + GPS/IMU (série temporal (time series)) + caixas delimitadoras (bounding boxes) (anotações (annotations))

Dados pareados vs. não pareados

Conjuntos de dados multimodais frequentemente se enquadram em uma destas categorias:

Conjuntos de dados pareados (alinhados): Cada amostra contém modalidades correspondentes (por exemplo, (imagem, legenda)). Eles são ideais para aprendizado supervisionado (supervised learning) e objetivos de alinhamento intermodal (cross-modal alignment objectives).
Conjuntos de dados não pareados (fracamente associados): As modalidades são coletadas do mesmo domínio, mas não estão alinhadas um-para-um (por exemplo, muitas imagens e muitas legendas). Eles ainda podem ser úteis para supervisão fraca (weak supervision) ou objetivos auto-supervisionados (self-supervised objectives), mas exigem um desenho cuidadoso para evitar o aprendizado de correlações espúrias.

O que “alinhamento” significa

Alinhamento é o mapeamento entre modalidades:

Alinhamento em nível de instância: Esta legenda descreve esta imagem.
Alinhamento em nível de região: Esta frase se refere a esta caixa delimitadora.
Alinhamento temporal: Este token de transcrição se alinha a este intervalo de tempo em áudio/vídeo.
Alinhamento entre documentos: Esta pergunta se refere a esta figura em um artigo.

O alinhamento costuma ser a parte mais cara da construção de conjuntos de dados multimodais — e a mais frágil.

Por que conjuntos de dados multimodais importam

Dados multimodais permitem que modelos aprendam representações que conectam modalidades, viabilizando:

Recuperação (retrieval): busca texto→imagem, busca imagem→texto, busca vídeo→texto
Compreensão ancorada (grounded understanding): vincular linguagem a evidências visuais/sonoras
Geração (generation): legendagem de imagens, sumarização de vídeos, texto-para-fala com contexto
Percepção robusta (robust perception): combinar áudio + vídeo melhora o desempenho em ruído
Sistemas voltados a pessoas (human-facing systems): assistentes que raciocinam sobre capturas de tela, documentos, chamadas ou feeds de câmera

Muitos sistemas recentes usam arquiteturas baseadas na Arquitetura Transformer (Transformer Architecture), frequentemente treinadas com objetivos como Aprendizado Contrastivo (Contrastive Learning) e Aprendizado Auto-supervisionado (Self-Supervised Learning).

Famílias comuns de tarefas e como os conjuntos de dados diferem

Tarefas diferentes implicam esquemas, rótulos e armadilhas de avaliação diferentes:

Legendagem de imagens: uma imagem, múltiplas legendas humanas (diversidade importa)
Perguntas e Respostas Visuais (Visual Question Answering, VQA): imagem + pergunta + resposta(s), frequentemente com múltiplos anotadores
Recuperação multimodal: pares (imagem,texto) em grande escala; tolerância a ruído torna-se um parâmetro-chave de projeto
Reconhecimento de fala audiovisual: quadros de vídeo + forma de onda de áudio + transcrição + rótulos de falante + carimbos de tempo
Compreensão de vídeo: sequências longas; rótulos em nível de segmento (ações, eventos), limites temporais
IA para documentos (Document AI): páginas como imagens + texto de OCR + estrutura de layout + rótulos de entidades
Diálogo multimodal (multimodal dialogue): turnos conversacionais que se referem a imagens/vídeos; rastreamento de correferência é essencial

Um único conjunto de dados pode suportar múltiplas tarefas, mas apenas se o esquema e as divisões (splits) anteciparem o reuso.

Esquemas: como conjuntos de dados multimodais normalmente são organizados

Um bom esquema multimodal é (1) passível de junção, (2) auditável, (3) versionável e (4) resiliente a modalidades ausentes.

Princípio: separar ativos (assets) de metadados (metadata)

Ativos binários grandes (imagens/áudio/vídeo) geralmente são armazenados em armazenamento de objetos (object storage) ou em fragmentos (shards), referenciados por URI e hash. Metadados e anotações ficam em registros estruturados.

Padrões comuns:

Manifesto + ativos (recomendado): metadados em JSONL/Parquet apontam para blobs.
Amostras fragmentadas (comum em escala): fragmentos tar do WebDataset ou TFRecords contendo tanto bytes de mídia quanto metadados.
Modelo relacional (para anotação complexa): tabelas separadas para ativos, anotações e alinhamentos.

Um manifesto JSONL mínimo (imagem + texto)

{"id":"0001","image_uri":"s3://bucket/img/0001.jpg","image_sha256":"...","captions":["a dog jumps over a log","a brown dog leaping outdoors"],"source":"user_upload","license":"cc-by-4.0"}
{"id":"0002","image_uri":"s3://bucket/img/0002.jpg","image_sha256":"...","captions":["two people sitting at a table"],"source":"web","license":"unknown"}

Campos-chave a incluir desde cedo (mesmo que você não os use imediatamente):

id estável
URIs para cada modalidade (ou bytes embutidos se estiver fragmentado)
Hashes para integridade/deduplicação
Proveniência (source, horário de coleta, uploader)
Metadados de licença/direitos
Sinalizadores de qualidade e filtros aplicados opcionais

Para expectativas de documentação, veja Documentação de Conjunto de Dados (Datasheets).

Adicionando alinhamento temporal (vídeo + áudio + transcrição)

Conjuntos de dados temporais se beneficiam de estruturas explícitas de segmentos:

{
  "id": "clip_91",
  "video_uri": "s3://bucket/video/clip_91.mp4",
  "audio_uri": "s3://bucket/audio/clip_91.wav",
  "fps": 30,
  "audio_sample_rate": 16000,
  "segments": [
    {"t0": 0.00, "t1": 2.10, "speaker": "spk1", "text": "welcome back everyone"},
    {"t0": 2.10, "t1": 3.40, "speaker": "spk2", "text": "today we'll review the chart"}
  ]
}

Dicas práticas:

Armazene timestamps em segundos (float) com uma política de arredondamento definida.
Mantenha as taxas de amostragem originais e forneça visões derivadas (por exemplo, áudio reamostrado) como artefatos separados para evitar ambiguidade.

Lidando com relações um-para-muitos e muitos-para-muitos

Conjuntos de dados multimodais frequentemente contêm:

Uma imagem → muitas legendas
Um vídeo → muitos segmentos → muitos rótulos
Um documento → muitas páginas → muitas entidades

Represente isso explicitamente em vez de forçar tudo em um único registro plano. Em Parquet, você pode usar listas/structs aninhados; em um desenho relacional, use tabelas de junção (por exemplo, image_id ↔ caption_id).

Conceitos recomendados de esquema

Independentemente do formato de armazenamento, conjuntos de dados multimodais se beneficiam destas entidades conceituais:

Ativo: um objeto de mídia (arquivo de imagem/áudio/vídeo/texto), com checksum e proveniência
Exemplo: uma instância de treinamento composta por um ou mais ativos + alinhamentos opcionais
Anotação: rótulos, legendas, pares de QA, caixas delimitadoras, segmentos etc.
Alinhamento: mapeamento entre modalidades (spans de tokens ↔ regiões; tempo de transcrição ↔ quadros)
Pertencimento a split: atribuição treino/val/test na “unidade” correta (veja vazamento abaixo)

Coleta de dados e rotulagem em cenários multimodais

A rotulagem (labeling) multimodal é mais difícil porque anotadores precisam coordenar entre canais:

Criadores de legendas precisam de orientação clara sobre linguagem descritiva vs. interpretativa.
VQA exige tratamento cuidadoso de ambiguidade e múltiplas respostas válidas.
Transcrição de áudio/vídeo exige alinhamento temporal e manejo de ruído.

Estratégias comuns:

Pipelines em múltiplas etapas: coletar pares brutos → filtrar → rotular subconjunto de alta qualidade → expandir iterativamente.
Supervisão fraca: usar texto ao redor (por exemplo, alt text, títulos) como rótulos ruidosos e depois limpar.
Rótulos por consenso: múltiplos anotadores + adjudicação para tarefas ambíguas.

Para melhores práticas mais amplas de rotulagem, veja Coleta de Dados e Rotulagem.

Armadilhas (e como evitá-las)

1) Desalinhamento e “falhas silenciosas (silent failures)”

Desalinhamento acontece quando o conjunto de dados diz que modalidades correspondem, mas elas não correspondem:

Legenda errada anexada à imagem (incompatibilidade de IDs)
Indexação de quadros off-by-one em clipes de vídeo
Áudio deslocado em 200 ms em relação ao vídeo
Texto de OCR extraído da versão errada da página

Mitigações:

Armazene e valide checksums e dimensões (duração, fps, taxa de amostragem).
Adicione testes unitários (unit tests) para leitores de conjunto de dados (dataset readers) (por exemplo, verificar se o tempo final da transcrição ≤ duração do clipe).
Faça amostragem e audite manualmente o alinhamento com regularidade.

2) Vazamento treino/teste por duplicatas ou quase-duplicatas

Vazamento é especialmente comum em corpora multimodais raspados da web ou derivados de conteúdo de usuários:

A mesma imagem aparece com nomes de arquivo diferentes em splits distintos
O mesmo vídeo é reenviado com pequenas edições
Legendas repetidas literalmente em muitas imagens (“frases de estoque”)
Vazamento em nível de quadro: clipes do mesmo vídeo original separados entre treino e teste

Mitigações:

Deduplicate usando hashes perceptuais (perceptual hashes) (imagens), impressões digitais de áudio e similaridade de incorporações (embeddings).
Faça splits por um id de grupo de nível mais alto (por exemplo, video_id, document_id, uploader_id, product_id), não por amostra individual.

Isso interage fortemente com reprodutibilidade; acompanhe regras e hashes de deduplicação via Versionamento de Dados.

3) Correlações espúrias entre modalidades

Modelos podem “trapacear” explorando atalhos:

Em VQA, a resposta pode ser previsível apenas a partir do texto da pergunta (viés de conjunto de dados (dataset bias)).
Em conjuntos de dados de vídeo, música de fundo pode correlacionar com um rótulo de ação.
Marcas d’água (watermarks) ou elementos de UI podem revelar o rótulo da classe.

Mitigações:

Execute ablações de modalidade (modality ablations): avalie baselines apenas-texto, apenas-imagem, apenas-áudio.
Meça e documente vieses; considere rebalancear ou coletar contraexemplos.
Use conjuntos de avaliação adversariais (adversarial) ou contrafactuais (counterfactual) quando viável.

4) Modalidades ausentes e disponibilidade inconsistente

Dados multimodais do mundo real são bagunçados:

Alguns registros não têm faixa de áudio ou têm quadros corrompidos
OCR falha em algumas páginas
Legendas fornecidas por usuários estão ausentes ou vazias

Projete para ausência (missingness):

Inclua flags available por modalidade e códigos de erro.
Decida se a ausência será filtrada, imputada ou mantida como um sinal significativo.
Garanta que o pipeline de treinamento lide com modalidades ausentes de forma determinística.

5) Variação de qualidade entre modalidades

Um conjunto de dados pode ter “alta qualidade” em texto, mas baixa qualidade em áudio, levando a sinais de aprendizado ruidosos.

Exemplos:

Transcrições geradas automaticamente com alta taxa de erro de palavras
Miniaturas de baixa resolução pareadas com legendas detalhadas
Áudio fortemente comprimido causando perda de fonemas

Mitigações:

Acompanhe métricas de qualidade específicas por modalidade (por exemplo, estimativas de SNR, confiança de OCR, escores de desfoque).
Armazene versões brutas e normalizadas e documente transformações em Pipelines de Dados (ETL/ELT para aprendizado de máquina).

6) Questões de privacidade e consentimento (frequentemente piores em multimodal)

Dados multimodais frequentemente contêm informações sensíveis:

Rostos, placas de veículos, interiores de casas (imagens/vídeo)
Nomes, endereços, números de conta (texto/OCR)
Vozes (áudio é biométrico em muitos contextos)
Capturas de tela com conteúdo confidencial

Mitigações:

Aplique revisões de privacidade e práticas de minimização de Privacidade.
Considere redação (desfoque, beep) ou evite coletar a modalidade por completo.
Restrinja acesso e registre uso conforme Segurança de Dados.
Registre consentimento e uso permitido; imponha limitações de propósito via Governança de Dados.

7) Ambiguidade de licenciamento e proveniência

Conjuntos de dados multimodais em escala web frequentemente sofrem com direitos pouco claros:

Imagens sob licenças restritivas
Vídeos com trilhas de áudio protegidas por direitos autorais
“Acessível publicamente” não significa “permitido reutilizar”

Mitigações:

Armazene metadados de licença e proveniência no nível de ativo, não apenas no nível do conjunto de dados.
Mantenha timestamps de coleta e URLs de origem (com controles de acesso quando necessário).
Se usar coleta na web, siga orientações em Dados da Web e Raspagem.

8) Ambiguidade de anotação e discordância de avaliadores

Tarefas multimodais podem ser inerentemente ambíguas (por exemplo, “O que está acontecendo?” em um clipe curto). O ground-truth pode exigir:

Múltiplas respostas com regras de pontuação
Treinamento calibrado de anotadores
Opções claras de “desconhecido/incerto”

Documente ambiguidade e políticas de rotulagem no seu datasheet; caso contrário, números de benchmark podem ser enganosos.

Formatos de armazenamento e padrões de acesso na prática

As escolhas dependem de escala, necessidades de throughput e ferramental:

JSONL: manifestos simples e legíveis por humanos; bom para protótipos.
Parquet: colunar, comprimido, varredura rápida; bom para análises e metadados grandes.
TFRecord / RecordIO: comum em ecossistemas TensorFlow; leituras sequenciais eficientes.
WebDataset (fragmentos tar): popular para treinamento multimodal em grande escala; cada amostra empacota múltiplos arquivos.

Um híbrido comum é: metadados em Parquet + ativos em armazenamento de objetos, ou fragmentos do WebDataset + “índice” em Parquet para auditoria.

Exemplo: esquema em estilo Parquet com junções (conceitual)

examples: example_id, split, group_id, source, filters_applied
assets: asset_id, example_id, modality, uri, sha256, mime, duration_s, width, height
annotations: annotation_id, example_id, type, payload_json, annotator_id, confidence
alignments: alignment_id, example_id, from_modality, to_modality, mapping_json

Essa estrutura facilita redividir (re-split), refiltrar (re-filter) ou adicionar novas anotações sem reescrever a mídia.

Pré-processamento: normalização sem perder significado

Cada modalidade tem um pré-processamento padrão, mas conjuntos de dados multimodais exigem consistência:

Texto: normalização, identificação de idioma (language ID), tokenização (tokenization) (registre a versão do tokenizador)
Imagens: espaço de cor, estratégia de redimensionamento/recorte (recorte central (center crop) vs. preenchimento com barras (letterbox))
Áudio: reamostragem (resampling), normalização de loudness (loudness normalization), corte de silêncio (silence trimming) (pode mudar o alinhamento!)
Vídeo: conversão de taxa de quadros (frame rate conversion), extração de clipes (clip extraction) (mantenha os timestamps originais!)

Um erro comum é aplicar transformações que quebram o alinhamento (por exemplo, cortar silêncio inicial no áudio mantendo os timestamps originais da transcrição). Quando você precisar transformar, ou:

recompute alinhamentos, ou
armazene um mapeamento de transformação para que timestamps possam ser convertidos de forma confiável.

Splits e avaliação: a unidade de generalização importa

Em conjuntos de dados multimodais, fazer split aleatório no nível de amostra frequentemente é errado. Unidades melhores de split incluem:

Por usuário/uploader (evita vazamento por personalização)
Por documento/vídeo/item de origem (evita vazamento em nível de segmento)
Por tempo (mais realista para produção; suporta detecção de drift)

Considere também:

Avaliar com negativos difíceis (hard negatives) para recuperação (imagens similares com legendas diferentes).
Usar avaliação humana para tarefas generativas quando métricas automáticas não são confiáveis.
Reportar desempenho por subgrupo e por faixa de qualidade de modalidade para entender modos de falha.

Monitorar mudanças ao longo do tempo se conecta diretamente a Qualidade de Dados e Drift.

Exemplos práticos

Exemplo 1: Construindo um conjunto de dados multimodal de QA de produtos

Objetivo: responder perguntas de usuários usando imagens de produto + especificações textuais.

Destaques de esquema:

product_id como a chave de split (evitar o mesmo produto em treino e teste)
Ativos: main_image, gallery_images, spec_text, manual_pdf_pages
Anotações: pergunta, resposta, ponteiros de evidência de suporte (por exemplo, qual região da imagem ou seção de especificação)

Armadilhas:

Vazamento via imagens de banco idênticas compartilhadas entre produtos (deduplicate com hashes perceptuais)
Erros de OCR em manuais; armazene confiança de OCR e faça fallback para texto do PDF quando disponível
Privacidade: fotos enviadas por usuários podem incluir rostos ou endereços residenciais

Exemplo 2: Compreensão de reuniões audiovisual

Objetivo: sumarizar reuniões com referência aos slides.

Necessidades-chave:

Alinhamento temporal preciso entre segmentos de transcrição e mudanças de slide
Metadados de diarização de locutor (IDs de falante, mas evite armazenar nomes reais a menos que necessário)
Políticas de consentimento e retenção são críticas devido a conteúdo sensível

Armadilhas:

Imagens de slides podem conter informação confidencial — controle de acesso e fluxos de redação são essenciais.
Mudança de domínio: microfones/câmeras diferentes causam quedas de desempenho se não estiverem representados no treinamento.

Dados sintéticos e multimodais aumentados

Dados sintéticos (synthetic data) podem preencher lacunas (eventos raros, restrições de privacidade), mas adicionam seus próprios riscos:

Legendas sintéticas podem ser estilisticamente uniformes e fazer modelos superajustarem a peculiaridades do gerador.
Texto-para-fala pode distorcer distribuições de prosódia.
Imagens geradas podem introduzir artefatos que viram atalhos.

Use dados sintéticos deliberadamente, acompanhe proveniência e avalie em dados reais. Veja Dados Sintéticos.

Checklist de melhores práticas operacionais

Defina a unidade de alinhamento (instância/região/tempo) e codifique-a explicitamente.
Armazene proveniência e licenças por ativo; não dependa de notas no nível do conjunto de dados.
Projete para modalidades ausentes com flags e tratamento determinístico.
Evite vazamento com splits baseados em grupos e deduplicação robusta.
Acompanhe transformações (o que mudou, como, e qual versão fez) via Versionamento de Dados.
Documente uso pretendido e limitações com Documentação de Conjunto de Dados (Datasheets).
Proteja e governe o acesso para conteúdo multimodal sensível usando Segurança de Dados e Governança de Dados.
Audite continuamente qualidade e drift, especialmente ao coletar dados de fontes mutáveis (Qualidade de Dados e Drift).

Resumo

Conjuntos de dados multimodais viabilizam aprendizado intermodal poderoso, mas são mais difíceis de construir do que conjuntos de dados unimodais porque exigem alinhamento correto, projeto cuidadoso de esquema e governança robusta em torno de privacidade, licenciamento e vazamento. Trate o esquema como um contrato de longo prazo: se você armazenar IDs estáveis, proveniência, hashes, metadados específicos por modalidade e estruturas explícitas de alinhamento, você consegue escalar coleta e rotulagem, depurar falhas e evoluir o conjunto de dados sem comprometer reprodutibilidade ou confiança.

Conjuntos de Dados Multimodais

O que torna um conjunto de dados “multimodal”?

Dados pareados vs. não pareados

O que “alinhamento” significa

Por que conjuntos de dados multimodais importam

Famílias comuns de tarefas e como os conjuntos de dados diferem

Esquemas: como conjuntos de dados multimodais normalmente são organizados

Princípio: separar *ativos (assets)* de *metadados (metadata)*

Um manifesto JSONL mínimo (imagem + texto)

Adicionando alinhamento temporal (vídeo + áudio + transcrição)

Lidando com relações um-para-muitos e muitos-para-muitos

Conceitos recomendados de esquema

Coleta de dados e rotulagem em cenários multimodais

Armadilhas (e como evitá-las)

1) Desalinhamento e “falhas silenciosas (silent failures)”

2) Vazamento treino/teste por duplicatas ou quase-duplicatas

3) Correlações espúrias entre modalidades

4) Modalidades ausentes e disponibilidade inconsistente

5) Variação de qualidade entre modalidades

6) Questões de privacidade e consentimento (frequentemente piores em multimodal)

7) Ambiguidade de licenciamento e proveniência

8) Ambiguidade de anotação e discordância de avaliadores

Formatos de armazenamento e padrões de acesso na prática

Exemplo: esquema em estilo Parquet com junções (conceitual)

Pré-processamento: normalização sem perder significado

Splits e avaliação: a unidade de generalização importa

Exemplos práticos

Exemplo 1: Construindo um conjunto de dados multimodal de QA de produtos

Exemplo 2: Compreensão de reuniões audiovisual

Dados sintéticos e multimodais aumentados

Checklist de melhores práticas operacionais

Resumo

Princípio: separar ativos (assets) de metadados (metadata)