Modalidades

O que “modalidade (modality)” significa em IA generativa (generative AI)

Uma modalidade é um tipo de canal de informação com sua própria estrutura e restrições — mais comumente texto, imagens, áudio e vídeo. Em IA generativa, “mudar de modalidades” não significa apenas trocar formatos de entrada/saída. Isso muda:

  • Como os dados são representados (tokens discretos (discrete tokens) vs sinais contínuos (continuous signals))
  • O que os modelos aprendem (sintaxe/semântica (syntax/semantics) vs estrutura perceptual (perceptual structure) vs dinâmicas temporais (temporal dynamics))
  • Quais arquiteturas e objetivos funcionam bem
  • Como a geração é amostrada/decodificada
  • Como a qualidade é avaliada
  • Quais modos de falha (failure modes) e riscos de segurança dominam

Este artigo explica o que muda ao longo de geração de texto (text generation), geração de imagens (image generation), geração de áudio/fala (audio/speech generation), geração de vídeo (video generation) e geração multimodal (multimodal generation), conectando fundamentos teóricos e implicações práticas.

Aprofundamentos relacionados: Geração de Texto, Geração de Imagens, Geração de Áudio / Fala, Geração de Vídeo e Geração Multimodal. Para famílias de modelos, veja Modelagem Generativa e, especificamente para modelos de linguagem, veja Modelos de Linguagem de Grande Porte.

Uma visão unificadora: geração como modelagem de uma distribuição

Todos os modelos generativos buscam aprender uma distribuição de probabilidade sobre dados:

  • Aprender ( p(x) ) (geração incondicional (unconditional generation)), ou
  • Aprender ( p(x \mid c) ) (geração condicional (conditional generation)), onde ( c ) pode ser um prompt de texto (text prompt), uma imagem, um clipe de áudio, metadados etc.

O que muda por modalidade é a estrutura de (x):

  • Texto: uma sequência de símbolos discretos (tokens)
  • Imagem: uma grade 2D (pixels) com fortes correlações locais e invariâncias perceptuais
  • Áudio: um sinal temporal 1D com periodicidades, fase e estrutura em múltiplas escalas
  • Vídeo: um sinal 3D espaço-temporal (space-time) com movimento e restrições de consistência temporal de longo alcance

Essas diferenças estruturais levam a escolhas diferentes para:

  • Representação (representation) (tokens, latentes (latents), codecs)
  • Fatoração (factorization) (autorregressiva (autoregressive) vs difusão (diffusion) vs modelagem mascarada (masked modeling))
  • Viés indutivo (inductive bias) (atenção (attention) vs convolução (convolution) vs módulos temporais)
  • Amostragem (sampling) (temperatura/núcleo (temperature/nucleus) vs remoção de ruído iterativa (iterative denoising))
  • Avaliação (evaluation) (perplexidade (perplexity) vs FID (Fréchet Inception Distance) vs MOS (Mean Opinion Score) vs métricas temporais)

Representações: tokens, pixels, formas de onda e latentes

Texto: tokens discretos com um forte prior semântico

Texto é naturalmente discreto. Os modelos normalmente operam sobre IDs de tokens produzidos por tokenização (tokenization) (por exemplo, BPE/WordPiece). Essa discretização é conveniente:

  • O treinamento baseado em verossimilhança via predição do próximo token é direto.
  • As saídas já estão “comprimidas”: uma sequência de tokens é muito menor do que pixels/amostras de áudio.

Implicação-chave: a qualidade da geração depende fortemente de quão bem os tokens capturam morfologia, pontuação e scripts multilíngues.

Imagens: sinais contínuos de alta dimensão (frequentemente gerados no espaço latente)

Imagens normalmente são armazenadas como pixels (valores contínuos), mas a maioria dos modelos estado da arte gera imagens usando representações latentes (latent representations) por eficiência:

  • Espaço de pixels (pixel space): valores (H \times W \times 3); caro de modelar diretamente.
  • Tokens de patches (patch tokens): representam patches da imagem como tokens (comum em transformers de visão (vision transformers)).
  • Difusão latente (latent diffusion): comprime a imagem em um latente via um autocodificador (autoencoder), executa difusão no espaço latente, e então decodifica de volta para pixels.

Implicação-chave: a representação afeta fortemente nitidez, fidelidade e custo computacional.

Áudio: forma de onda vs espectrograma vs codecs neurais

Áudio pode ser representado como:

  • Forma de onda (waveform) (amostras no domínio do tempo): taxa de amostragem extremamente alta (por exemplo, 16 kHz → 16.000 valores/seg).
  • Espectrograma (spectrogram) (tempo-frequência): mais estruturado para modelagem, mas requer reconstrução de fase ou vocoders neurais (neural vocoders).
  • Codecs neurais (neural codecs) (discretos ou contínuos): compressão aprendida em tokens/latentes; popular para geração eficiente.

Implicação-chave: a geração de áudio costuma ser limitada por latência (latency) e coerência temporal (temporal coherence), e frequentemente precisa de uma etapa de “decodificador” (vocoder/decodificador de codec).

Vídeo: imagens + tempo (o problema de escala mais difícil)

Vídeo é, conceitualmente, uma sequência de quadros, mas a geração ingênua quadro a quadro quebra a coerência temporal. Representações incluem:

  • Baseada em quadros (frame-based) (pixels/latentes por quadro)
  • Latentes espaciotemporais (spatiotemporal latents)
  • Patches de vídeo tokenizados (tokenized video patches) com atenção temporal
  • Hierárquica (hierarchical) (movimento grosso + textura fina)

Implicação-chave: a geração de vídeo é dominada por consistência temporal, realismo de movimento e explosão do comprimento de sequência (sequence length explosion).

Objetivos de modelagem: o que o modelo é treinado para fazer

Modelagem autorregressiva (autoregressive modeling) (mais natural para texto)

A geração de texto normalmente usa um objetivo autorregressivo:

[ p(x) = \prod_t p(x_t \mid x_{<t}) ]

Isso se alinha perfeitamente com tokens discretos e oferece suporte a condicionamento flexível (prompts de sistema (system prompts), ferramentas, contexto recuperado). Veja Arquitetura Transformer.

Controles práticos de amostragem (temperatura, top-p) são padrão e rápidos.

Difusão / remoção de ruído (diffusion / denoising) (dominante para imagens, crescendo para áudio/vídeo)

Modelos de difusão (diffusion models) aprendem a reverter um processo de adição de ruído por remoção de ruído iterativa. Eles são eficazes para dados contínuos de alta dimensão e tendem a produzir alta qualidade perceptual.

Comuns em:

  • Texto-para-imagem (text-to-image)
  • Edição de imagens (restauração de áreas (inpainting), extensão de cena (outpainting))
  • Sistemas emergentes de texto-para-vídeo (text-to-video)
  • Geração de áudio em espaço latente/de codec

Trade-off: alta qualidade, mas a amostragem iterativa (iterative sampling) pode ser mais lenta do que a decodificação autorregressiva.

Modelagem mascarada (masked modeling) e latentes discretos

Alguns sistemas multimodais usam predição de tokens mascarados:

  • Mascare partes de uma imagem/sequência de tokens e aprenda a preenchê-las.
  • Funciona bem com codebooks discretos (discrete codebooks) (por exemplo, tokens no estilo VQ).

Isso pode ser útil para:

  • Completar imagens
  • Completar vídeos
  • Transformers multimodais de “token unificado”

Objetivos adversariais (adversarial objectives) (GANs) e abordagens híbridas (hybrid approaches)

Redes adversariais generativas (GANs) historicamente produziram imagens nítidas rapidamente, mas podem ser mais difíceis de treinar e controlar. Sistemas modernos frequentemente combinam ideias:

  • Difusão para fidelidade + orientação/controle
  • Perdas adversariais/perceptuais para realismo
  • Destilação (distillation) para velocidade (por exemplo, menos passos de difusão)

Mudanças de arquitetura entre modalidades

Texto: modelos de sequência com preocupações de contexto longo

Texto é 1D e discreto; transformers dominam. Os maiores pontos de pressão arquiteturais são:

  • Comprimento de contexto (context length) (o custo de atenção cresce aproximadamente de forma quadrática em tokens)
  • Uso de ferramentas / integração de recuperação (Recuperação e Ferramentas)
  • Alinhamento para seguir instruções (instruction-following alignment) (métodos do tipo RLHF/DPO)

Imagens: estrutura 2D e detalhes em múltiplas escalas

Modelos de imagem precisam capturar:

  • Textura e bordas locais
  • Composição global
  • Dependências multi-escala

Padrões arquiteturais incluem:

  • U-Nets (especialmente em difusão)
  • Transformers de visão com embeddings de patches
  • Autocodificadores para espaços latentes

Áudio: forte estrutura temporal e fase/identidade do locutor

Áudio exige:

  • Precisão temporal fina (microtemporização importa)
  • Estrutura de longo alcance (prosódia, ritmo)
  • Identidade do locutor e fonética (para fala)

Arquiteturas podem usar:

  • Decodificadores transformer sobre tokens de codec
  • Conformers (convolução + atenção)
  • Decodificadores no estilo difusão/vocoder para reconstrução de forma de onda

Vídeo: atenção espaciotemporal e limites de memória

Vídeo precisa de:

  • Realismo espacial por quadro
  • Identidade, iluminação e movimento consistentes no tempo
  • Tratamento eficiente de sequências longas

Complementos arquiteturais:

  • Blocos de atenção temporal
  • Convoluções 3D ou atenção espaço-tempo fatorada
  • Priors de movimento / módulos semelhantes a fluxo óptico (optical-flow-like modules)
  • Geração hierárquica (quadros-chave (keyframes) → interpolação (interpolation)/refinamento)

Condicionamento: como prompts e controles diferem por modalidade

Condicionamento é como você direciona a geração: (p(x \mid c)).

Condicionamento em texto

Modelos de texto são naturalmente condicionados por texto (instruções, exemplos). Técnicas de controle incluem:

  • Prompts de sistema e padrões de prompt (Prompting)
  • Saídas estruturadas (structured outputs) (esquemas JSON, chamada de funções (function calling))
  • Aumentação por recuperação (retrieval augmentation) (Recuperação e Ferramentas)
  • Ajuste fino (fine-tuning) para estilo ou domínio (Playbook de Ajuste Fino)

Exemplo: amostragem por temperatura/top-p para controle de estilo:

# Pseudocode for text sampling
tokens = []
for t in range(max_new_tokens):
    logits = model(tokens, context=prompt)
    logits = logits / temperature
    next_tok = sample_top_p(logits, p=0.9)
    tokens.append(next_tok)

Condicionamento em imagens

A geração de imagens frequentemente é condicionada por:

  • Prompts de texto (semântica global)
  • Imagens (imagem-para-imagem (image-to-image), transferência de estilo (style transfer))
  • Máscaras (inpainting)
  • Sinais de controle (control signals) (contornos de pose (pose edges), mapas de profundidade (depth maps), segmentação (segmentation))

Um mecanismo-chave em difusão é a orientação sem classificador (classifier-free guidance, CFG): ela fortalece a aderência à condição, frequentemente melhorando o alinhamento ao prompt (prompt alignment) ao custo de diversidade.

Condicionamento em áudio

A geração de áudio/fala pode ser condicionada por:

  • Texto (texto-para-fala (text-to-speech), TTS)
  • Embedding do locutor / áudio de referência (clonagem de voz (voice cloning))
  • Fonemas, contornos de pitch e temporização
  • Estrutura musical (tempo, acordes)

Condicionamento no estilo pipeline é comum (texto → fonemas → acústica → forma de onda).

Condicionamento em vídeo

O condicionamento em vídeo pode incluir:

  • Prompt de texto (descrição da cena)
  • Restrições do primeiro/último quadro
  • Guias de movimento (trajetória de câmera, sequências de pose)
  • Imagens de referência para consistência de personagem

Vídeo expõe um desafio único: a condição precisa restringir o tempo, não apenas o conteúdo.

Amostragem e decodificação: “um token por vez” vs “refinamento iterativo”

Texto: decodificação autorregressiva rápida com aleatoriedade controlável

A amostragem de texto é:

  • Sequencial (token por token)
  • De baixa latência e amigável a streaming
  • Altamente sensível às escolhas de decodificação (greedy vs beam vs núcleo (nucleus))

Imagens: remoção de ruído iterativa (difusão) ou decodificação direta (GAN/AR)

A amostragem por difusão executa um loop de passos de remoção de ruído:

# Pseudocode for diffusion sampling (conceptual)
z = gaussian_noise()
for t in reversed(range(T)):
    eps = unet(z, t, cond=prompt_embedding)
    z = denoise_step(z, eps, t)
img = decode_latent(z)

Esse “refinamento iterativo” se adequa bem à qualidade visual porque as restrições perceptuais são complexas e contínuas.

Áudio: restrições de streaming e sensibilidade a artefatos

A decodificação de áudio precisa evitar cliques, jitter e prosódia instável. Muitos sistemas:

  • Geram tokens de codec de forma autorregressiva e depois decodificam para forma de onda
  • Ou removem ruído no espaço latente com passos do tipo difusão
  • Enfatizam geração em streaming para TTS em tempo real

Vídeo: erros que se acumulam e deriva temporal

A amostragem precisa manter consistência entre quadros. Problemas comuns:

  • Deriva de identidade (identity drift) (rostos mudam sutilmente ao longo do tempo)
  • Cintilação (flicker) (mudanças de textura de quadro para quadro)
  • Incoerência de movimento

Mitigações incluem atenção temporal, perdas de consistência (consistency losses) e condicionamento em quadros/latentes anteriores.

Avaliação: o que significa “bom” muda por modalidade

Avaliação de texto

Métricas automáticas existem, mas são incompletas:

  • Perplexidade (orientada a treino)
  • Acurácia baseada em tarefas (QA, testes de código)
  • Julgamentos de preferência humana
  • Checagens de alucinação (hallucination)/factualidade (factuality) (frequentemente exigindo recuperação ou validadores externos)

Texto também é avaliado fortemente em utilidade e capacidade de seguir instruções.

Avaliação de imagens

Métricas comuns:

  • FID (similaridade de distribuição; imperfeito)
  • Pontuação CLIP (CLIP score) / proxies de alinhamento texto-imagem
  • Avaliação humana para estética e fidelidade ao prompt

A qualidade de imagem é fortemente perceptual; pequenos erros de pixel podem ser irrelevantes enquanto erros semânticos são críticos.

Avaliação de áudio

Áudio é frequentemente avaliado por:

  • MOS (Mean Opinion Score) de avaliadores humanos
  • Inteligibilidade baseada em reconhecimento automático de fala (ASR)
  • Métricas de similaridade de locutor (para clonagem de voz)
  • Detecção de artefatos (ruído, clipping)

Avaliação de vídeo

A mais difícil de avaliar automaticamente:

  • Qualidade de quadro + consistência temporal
  • Realismo de movimento
  • Coerência de longo alcance (história, ações) Existem métricas (por exemplo, pontuações de vídeo distribucionais), mas avaliação humana continua importante.

Aplicações práticas por modalidade

Aplicações de geração de texto

  • Assistentes de suporte ao cliente
  • Geração e refatoração de código
  • Sumarização e extração
  • Uso de ferramentas de forma agêntica (agentic) com saídas estruturadas

Texto geralmente é a modalidade mais fácil de integrar em fluxos de produto devido à baixa largura de banda e interfaces diretas.

Aplicações de geração de imagens

  • Arte conceitual, peças criativas para publicidade
  • Mockups de produto e iteração de design
  • Edição de fotos: inpainting, substituição de fundo
  • Geração de dados sintéticos (synthetic data) para modelos de visão (Dados Sintéticos para GenAI)

Aplicações de geração de áudio/fala

  • Texto-para-fala para acessibilidade e narração
  • Agentes de voz conversacionais (baixa latência importa)
  • Dublagem e localização
  • Geração de música e efeitos sonoros

Aplicações de geração de vídeo

  • Storyboarding e pré-visualização
  • Clipes de marketing e rascunhos de motion graphics
  • Simulação e dados sintéticos (limitado, mas crescendo)

Vídeo é poderoso, mas ainda desafiador operacionalmente devido a computação, controle de edição e preocupações de segurança.

Geração multimodal: quando modalidades se encontram

Geração multimodal cobre modelos que consomem e/ou produzem múltiplas modalidades, como:

  • Legendagem de imagens (image captioning) (imagem → texto)
  • Texto-para-imagem (texto → imagem)
  • Resposta a perguntas visuais (visual question answering) (imagem + texto → texto)
  • Compreensão de vídeo (vídeo → texto)
  • Assistentes multimodais (texto + imagens + áudio → texto/ações)
  • Sistemas unificados (texto + imagem → imagem; imagem + texto → texto; etc.)

Duas ideias fundamentais habilitam sistemas multimodais:

  1. Alinhamento (alignment): aprender representações compartilhadas (por exemplo, aprendizado contrastivo (contrastive learning) como objetivos no estilo CLIP (CLIP-style objectives)) para que texto e imagens “se encontrem” no espaço de embeddings (embedding space).
  2. Atenção cruzada / fusão (cross-attention / fusion): permitir que uma modalidade condicione a geração em outra (por exemplo, tokens de texto atendendo a tokens de patches de imagem).

Modelos multimodais frequentemente herdam forças/fraquezas de cada modalidade:

  • Podem descrever bem uma imagem, mas ter dificuldade para contar com confiabilidade.
  • Podem seguir um prompt, mas perder restrições visuais sutis.
  • Podem amplificar alucinações se o modelo “chutar” detalhes visuais que não estão presentes.

Para mais, veja Geração Multimodal.

Realidades de engenharia: escala, latência e dados

Comprimento de sequência e explosões de custo computacional

Mudanças de modalidade frequentemente alteram dramaticamente o comprimento efetivo de sequência:

  • Texto: centenas a dezenas de milhares de tokens
  • Imagem: potencialmente milhares de tokens de patch/latentes
  • Áudio: dezenas de milhares de passos de tempo por segundo (se no nível de forma de onda)
  • Vídeo: quadros × tokens de imagem → contextos muito grandes

Isso direciona escolhas de design como:

  • Representações latentes (comprima!)
  • Segmentação (chunking) e modelagem hierárquica
  • Variantes eficientes de atenção (especialmente para contextos longos)

Disponibilidade de dados e rotulagem

  • Texto: abundante, mas ruidoso; licenciamento e privacidade são grandes preocupações.
  • Imagens: abundantes, mas legendas podem ser fracas; vieses de composição importam.
  • Áudio: menos abundante; consentimento e direitos do locutor são críticos.
  • Vídeo: caro para armazenar/computar; metadados frequentemente limitados.

Restrições de produto diferem

  • Texto: iteração mais rápida, avaliação mais fácil no app
  • Imagens: computação pesada, mas amigável a execução offline
  • Áudio: sensível à latência para uso conversacional
  • Vídeo: computação muito pesada e difícil de editar de forma determinística

Modos de falha e considerações de segurança diferem por modalidade

  • Texto: alucinações, injeção de prompt (prompt injection), vazamento de dados (data leakage) (Prompting)
  • Imagens: retratos enviesados, edições enganosas, remoção de marca d’água (watermarking), questões de propriedade intelectual (IP) e estilo
  • Áudio: uso indevido de clonagem de voz, personificação, violações de consentimento
  • Vídeo: deepfakes, desinformação persuasiva, manipulação de identidade em escala

Mitigações incluem:

  • Governança de dados (dataset governance) e consentimento
  • Filtros de conteúdo e aplicação de políticas
  • Esforços de marca d’água/proveniência (provenance) (imperfeitos, mas melhorando)
  • Revisão humano no ciclo (human-in-the-loop) para casos de uso de alto risco

Como escolher uma abordagem ao mudar de modalidades

Ao construir um sistema generativo, a modalidade determina a estratégia de modelagem mais prática:

  • Se as saídas forem discretas e simbólicas (texto, código): transformers autorregressivos geralmente são os mais simples.
  • Se as saídas forem contínuas e perceptuais (imagens, frequentemente vídeo): difusão/difusão latente é comum por qualidade e controlabilidade.
  • Se as saídas exigirem streaming em tempo real (fala): modelos autorregressivos por tokens de codec ou modelos de difusão com poucos passos/destilados são favorecidos.
  • Se você precisa de múltiplas modalidades: decida se você precisa
    • apenas compreensão (codificar modalidades em embeddings), ou
    • geração entre modalidades (decodificadores para cada modalidade, alinhamento e fusão).

Para decisões em nível de sistema — prompting vs ajuste fino vs recuperação — veja Playbook de Ajuste Fino e Recuperação e Ferramentas.

Resumo: o que muda entre modalidades

Ao longo de geração de texto, imagem, áudio, vídeo e multimodal, as “grandes mudanças” são:

  • Representação: tokens vs pixels vs formas de onda vs latentes/codecs
  • Objetivo de treinamento: predição do próximo token vs remoção de ruído vs modelagem mascarada
  • Arquitetura: transformers de sequência vs U-Nets/autocodificadores vs módulos espaciotemporais
  • Amostragem: decodificação autorregressiva rápida vs remoção de ruído/refinamento iterativo
  • Avaliação: perplexidade/pontuações por tarefa vs métricas perceptuais vs MOS humano/coerência temporal
  • Restrições operacionais: latência, computação e riscos de segurança mudam dramaticamente

Entender essas diferenças ajuda você a transferir intuição de uma modalidade (frequentemente texto) para outras sem assumir que as mesmas ferramentas, métricas ou modos de falha se manterão inalterados.