Modalidades
O que “modalidade (modality)” significa em IA generativa (generative AI)
Uma modalidade é um tipo de canal de informação com sua própria estrutura e restrições — mais comumente texto, imagens, áudio e vídeo. Em IA generativa, “mudar de modalidades” não significa apenas trocar formatos de entrada/saída. Isso muda:
- Como os dados são representados (tokens discretos (discrete tokens) vs sinais contínuos (continuous signals))
- O que os modelos aprendem (sintaxe/semântica (syntax/semantics) vs estrutura perceptual (perceptual structure) vs dinâmicas temporais (temporal dynamics))
- Quais arquiteturas e objetivos funcionam bem
- Como a geração é amostrada/decodificada
- Como a qualidade é avaliada
- Quais modos de falha (failure modes) e riscos de segurança dominam
Este artigo explica o que muda ao longo de geração de texto (text generation), geração de imagens (image generation), geração de áudio/fala (audio/speech generation), geração de vídeo (video generation) e geração multimodal (multimodal generation), conectando fundamentos teóricos e implicações práticas.
Aprofundamentos relacionados: Geração de Texto, Geração de Imagens, Geração de Áudio / Fala, Geração de Vídeo e Geração Multimodal. Para famílias de modelos, veja Modelagem Generativa e, especificamente para modelos de linguagem, veja Modelos de Linguagem de Grande Porte.
Uma visão unificadora: geração como modelagem de uma distribuição
Todos os modelos generativos buscam aprender uma distribuição de probabilidade sobre dados:
- Aprender ( p(x) ) (geração incondicional (unconditional generation)), ou
- Aprender ( p(x \mid c) ) (geração condicional (conditional generation)), onde ( c ) pode ser um prompt de texto (text prompt), uma imagem, um clipe de áudio, metadados etc.
O que muda por modalidade é a estrutura de (x):
- Texto: uma sequência de símbolos discretos (tokens)
- Imagem: uma grade 2D (pixels) com fortes correlações locais e invariâncias perceptuais
- Áudio: um sinal temporal 1D com periodicidades, fase e estrutura em múltiplas escalas
- Vídeo: um sinal 3D espaço-temporal (space-time) com movimento e restrições de consistência temporal de longo alcance
Essas diferenças estruturais levam a escolhas diferentes para:
- Representação (representation) (tokens, latentes (latents), codecs)
- Fatoração (factorization) (autorregressiva (autoregressive) vs difusão (diffusion) vs modelagem mascarada (masked modeling))
- Viés indutivo (inductive bias) (atenção (attention) vs convolução (convolution) vs módulos temporais)
- Amostragem (sampling) (temperatura/núcleo (temperature/nucleus) vs remoção de ruído iterativa (iterative denoising))
- Avaliação (evaluation) (perplexidade (perplexity) vs FID (Fréchet Inception Distance) vs MOS (Mean Opinion Score) vs métricas temporais)
Representações: tokens, pixels, formas de onda e latentes
Texto: tokens discretos com um forte prior semântico
Texto é naturalmente discreto. Os modelos normalmente operam sobre IDs de tokens produzidos por tokenização (tokenization) (por exemplo, BPE/WordPiece). Essa discretização é conveniente:
- O treinamento baseado em verossimilhança via predição do próximo token é direto.
- As saídas já estão “comprimidas”: uma sequência de tokens é muito menor do que pixels/amostras de áudio.
Implicação-chave: a qualidade da geração depende fortemente de quão bem os tokens capturam morfologia, pontuação e scripts multilíngues.
Imagens: sinais contínuos de alta dimensão (frequentemente gerados no espaço latente)
Imagens normalmente são armazenadas como pixels (valores contínuos), mas a maioria dos modelos estado da arte gera imagens usando representações latentes (latent representations) por eficiência:
- Espaço de pixels (pixel space): valores (H \times W \times 3); caro de modelar diretamente.
- Tokens de patches (patch tokens): representam patches da imagem como tokens (comum em transformers de visão (vision transformers)).
- Difusão latente (latent diffusion): comprime a imagem em um latente via um autocodificador (autoencoder), executa difusão no espaço latente, e então decodifica de volta para pixels.
Implicação-chave: a representação afeta fortemente nitidez, fidelidade e custo computacional.
Áudio: forma de onda vs espectrograma vs codecs neurais
Áudio pode ser representado como:
- Forma de onda (waveform) (amostras no domínio do tempo): taxa de amostragem extremamente alta (por exemplo, 16 kHz → 16.000 valores/seg).
- Espectrograma (spectrogram) (tempo-frequência): mais estruturado para modelagem, mas requer reconstrução de fase ou vocoders neurais (neural vocoders).
- Codecs neurais (neural codecs) (discretos ou contínuos): compressão aprendida em tokens/latentes; popular para geração eficiente.
Implicação-chave: a geração de áudio costuma ser limitada por latência (latency) e coerência temporal (temporal coherence), e frequentemente precisa de uma etapa de “decodificador” (vocoder/decodificador de codec).
Vídeo: imagens + tempo (o problema de escala mais difícil)
Vídeo é, conceitualmente, uma sequência de quadros, mas a geração ingênua quadro a quadro quebra a coerência temporal. Representações incluem:
- Baseada em quadros (frame-based) (pixels/latentes por quadro)
- Latentes espaciotemporais (spatiotemporal latents)
- Patches de vídeo tokenizados (tokenized video patches) com atenção temporal
- Hierárquica (hierarchical) (movimento grosso + textura fina)
Implicação-chave: a geração de vídeo é dominada por consistência temporal, realismo de movimento e explosão do comprimento de sequência (sequence length explosion).
Objetivos de modelagem: o que o modelo é treinado para fazer
Modelagem autorregressiva (autoregressive modeling) (mais natural para texto)
A geração de texto normalmente usa um objetivo autorregressivo:
[ p(x) = \prod_t p(x_t \mid x_{<t}) ]
Isso se alinha perfeitamente com tokens discretos e oferece suporte a condicionamento flexível (prompts de sistema (system prompts), ferramentas, contexto recuperado). Veja Arquitetura Transformer.
Controles práticos de amostragem (temperatura, top-p) são padrão e rápidos.
Difusão / remoção de ruído (diffusion / denoising) (dominante para imagens, crescendo para áudio/vídeo)
Modelos de difusão (diffusion models) aprendem a reverter um processo de adição de ruído por remoção de ruído iterativa. Eles são eficazes para dados contínuos de alta dimensão e tendem a produzir alta qualidade perceptual.
Comuns em:
- Texto-para-imagem (text-to-image)
- Edição de imagens (restauração de áreas (inpainting), extensão de cena (outpainting))
- Sistemas emergentes de texto-para-vídeo (text-to-video)
- Geração de áudio em espaço latente/de codec
Trade-off: alta qualidade, mas a amostragem iterativa (iterative sampling) pode ser mais lenta do que a decodificação autorregressiva.
Modelagem mascarada (masked modeling) e latentes discretos
Alguns sistemas multimodais usam predição de tokens mascarados:
- Mascare partes de uma imagem/sequência de tokens e aprenda a preenchê-las.
- Funciona bem com codebooks discretos (discrete codebooks) (por exemplo, tokens no estilo VQ).
Isso pode ser útil para:
- Completar imagens
- Completar vídeos
- Transformers multimodais de “token unificado”
Objetivos adversariais (adversarial objectives) (GANs) e abordagens híbridas (hybrid approaches)
Redes adversariais generativas (GANs) historicamente produziram imagens nítidas rapidamente, mas podem ser mais difíceis de treinar e controlar. Sistemas modernos frequentemente combinam ideias:
- Difusão para fidelidade + orientação/controle
- Perdas adversariais/perceptuais para realismo
- Destilação (distillation) para velocidade (por exemplo, menos passos de difusão)
Mudanças de arquitetura entre modalidades
Texto: modelos de sequência com preocupações de contexto longo
Texto é 1D e discreto; transformers dominam. Os maiores pontos de pressão arquiteturais são:
- Comprimento de contexto (context length) (o custo de atenção cresce aproximadamente de forma quadrática em tokens)
- Uso de ferramentas / integração de recuperação (Recuperação e Ferramentas)
- Alinhamento para seguir instruções (instruction-following alignment) (métodos do tipo RLHF/DPO)
Imagens: estrutura 2D e detalhes em múltiplas escalas
Modelos de imagem precisam capturar:
- Textura e bordas locais
- Composição global
- Dependências multi-escala
Padrões arquiteturais incluem:
- U-Nets (especialmente em difusão)
- Transformers de visão com embeddings de patches
- Autocodificadores para espaços latentes
Áudio: forte estrutura temporal e fase/identidade do locutor
Áudio exige:
- Precisão temporal fina (microtemporização importa)
- Estrutura de longo alcance (prosódia, ritmo)
- Identidade do locutor e fonética (para fala)
Arquiteturas podem usar:
- Decodificadores transformer sobre tokens de codec
- Conformers (convolução + atenção)
- Decodificadores no estilo difusão/vocoder para reconstrução de forma de onda
Vídeo: atenção espaciotemporal e limites de memória
Vídeo precisa de:
- Realismo espacial por quadro
- Identidade, iluminação e movimento consistentes no tempo
- Tratamento eficiente de sequências longas
Complementos arquiteturais:
- Blocos de atenção temporal
- Convoluções 3D ou atenção espaço-tempo fatorada
- Priors de movimento / módulos semelhantes a fluxo óptico (optical-flow-like modules)
- Geração hierárquica (quadros-chave (keyframes) → interpolação (interpolation)/refinamento)
Condicionamento: como prompts e controles diferem por modalidade
Condicionamento é como você direciona a geração: (p(x \mid c)).
Condicionamento em texto
Modelos de texto são naturalmente condicionados por texto (instruções, exemplos). Técnicas de controle incluem:
- Prompts de sistema e padrões de prompt (Prompting)
- Saídas estruturadas (structured outputs) (esquemas JSON, chamada de funções (function calling))
- Aumentação por recuperação (retrieval augmentation) (Recuperação e Ferramentas)
- Ajuste fino (fine-tuning) para estilo ou domínio (Playbook de Ajuste Fino)
Exemplo: amostragem por temperatura/top-p para controle de estilo:
# Pseudocode for text sampling
tokens = []
for t in range(max_new_tokens):
logits = model(tokens, context=prompt)
logits = logits / temperature
next_tok = sample_top_p(logits, p=0.9)
tokens.append(next_tok)
Condicionamento em imagens
A geração de imagens frequentemente é condicionada por:
- Prompts de texto (semântica global)
- Imagens (imagem-para-imagem (image-to-image), transferência de estilo (style transfer))
- Máscaras (inpainting)
- Sinais de controle (control signals) (contornos de pose (pose edges), mapas de profundidade (depth maps), segmentação (segmentation))
Um mecanismo-chave em difusão é a orientação sem classificador (classifier-free guidance, CFG): ela fortalece a aderência à condição, frequentemente melhorando o alinhamento ao prompt (prompt alignment) ao custo de diversidade.
Condicionamento em áudio
A geração de áudio/fala pode ser condicionada por:
- Texto (texto-para-fala (text-to-speech), TTS)
- Embedding do locutor / áudio de referência (clonagem de voz (voice cloning))
- Fonemas, contornos de pitch e temporização
- Estrutura musical (tempo, acordes)
Condicionamento no estilo pipeline é comum (texto → fonemas → acústica → forma de onda).
Condicionamento em vídeo
O condicionamento em vídeo pode incluir:
- Prompt de texto (descrição da cena)
- Restrições do primeiro/último quadro
- Guias de movimento (trajetória de câmera, sequências de pose)
- Imagens de referência para consistência de personagem
Vídeo expõe um desafio único: a condição precisa restringir o tempo, não apenas o conteúdo.
Amostragem e decodificação: “um token por vez” vs “refinamento iterativo”
Texto: decodificação autorregressiva rápida com aleatoriedade controlável
A amostragem de texto é:
- Sequencial (token por token)
- De baixa latência e amigável a streaming
- Altamente sensível às escolhas de decodificação (greedy vs beam vs núcleo (nucleus))
Imagens: remoção de ruído iterativa (difusão) ou decodificação direta (GAN/AR)
A amostragem por difusão executa um loop de passos de remoção de ruído:
# Pseudocode for diffusion sampling (conceptual)
z = gaussian_noise()
for t in reversed(range(T)):
eps = unet(z, t, cond=prompt_embedding)
z = denoise_step(z, eps, t)
img = decode_latent(z)
Esse “refinamento iterativo” se adequa bem à qualidade visual porque as restrições perceptuais são complexas e contínuas.
Áudio: restrições de streaming e sensibilidade a artefatos
A decodificação de áudio precisa evitar cliques, jitter e prosódia instável. Muitos sistemas:
- Geram tokens de codec de forma autorregressiva e depois decodificam para forma de onda
- Ou removem ruído no espaço latente com passos do tipo difusão
- Enfatizam geração em streaming para TTS em tempo real
Vídeo: erros que se acumulam e deriva temporal
A amostragem precisa manter consistência entre quadros. Problemas comuns:
- Deriva de identidade (identity drift) (rostos mudam sutilmente ao longo do tempo)
- Cintilação (flicker) (mudanças de textura de quadro para quadro)
- Incoerência de movimento
Mitigações incluem atenção temporal, perdas de consistência (consistency losses) e condicionamento em quadros/latentes anteriores.
Avaliação: o que significa “bom” muda por modalidade
Avaliação de texto
Métricas automáticas existem, mas são incompletas:
- Perplexidade (orientada a treino)
- Acurácia baseada em tarefas (QA, testes de código)
- Julgamentos de preferência humana
- Checagens de alucinação (hallucination)/factualidade (factuality) (frequentemente exigindo recuperação ou validadores externos)
Texto também é avaliado fortemente em utilidade e capacidade de seguir instruções.
Avaliação de imagens
Métricas comuns:
- FID (similaridade de distribuição; imperfeito)
- Pontuação CLIP (CLIP score) / proxies de alinhamento texto-imagem
- Avaliação humana para estética e fidelidade ao prompt
A qualidade de imagem é fortemente perceptual; pequenos erros de pixel podem ser irrelevantes enquanto erros semânticos são críticos.
Avaliação de áudio
Áudio é frequentemente avaliado por:
- MOS (Mean Opinion Score) de avaliadores humanos
- Inteligibilidade baseada em reconhecimento automático de fala (ASR)
- Métricas de similaridade de locutor (para clonagem de voz)
- Detecção de artefatos (ruído, clipping)
Avaliação de vídeo
A mais difícil de avaliar automaticamente:
- Qualidade de quadro + consistência temporal
- Realismo de movimento
- Coerência de longo alcance (história, ações) Existem métricas (por exemplo, pontuações de vídeo distribucionais), mas avaliação humana continua importante.
Aplicações práticas por modalidade
Aplicações de geração de texto
- Assistentes de suporte ao cliente
- Geração e refatoração de código
- Sumarização e extração
- Uso de ferramentas de forma agêntica (agentic) com saídas estruturadas
Texto geralmente é a modalidade mais fácil de integrar em fluxos de produto devido à baixa largura de banda e interfaces diretas.
Aplicações de geração de imagens
- Arte conceitual, peças criativas para publicidade
- Mockups de produto e iteração de design
- Edição de fotos: inpainting, substituição de fundo
- Geração de dados sintéticos (synthetic data) para modelos de visão (Dados Sintéticos para GenAI)
Aplicações de geração de áudio/fala
- Texto-para-fala para acessibilidade e narração
- Agentes de voz conversacionais (baixa latência importa)
- Dublagem e localização
- Geração de música e efeitos sonoros
Aplicações de geração de vídeo
- Storyboarding e pré-visualização
- Clipes de marketing e rascunhos de motion graphics
- Simulação e dados sintéticos (limitado, mas crescendo)
Vídeo é poderoso, mas ainda desafiador operacionalmente devido a computação, controle de edição e preocupações de segurança.
Geração multimodal: quando modalidades se encontram
Geração multimodal cobre modelos que consomem e/ou produzem múltiplas modalidades, como:
- Legendagem de imagens (image captioning) (imagem → texto)
- Texto-para-imagem (texto → imagem)
- Resposta a perguntas visuais (visual question answering) (imagem + texto → texto)
- Compreensão de vídeo (vídeo → texto)
- Assistentes multimodais (texto + imagens + áudio → texto/ações)
- Sistemas unificados (texto + imagem → imagem; imagem + texto → texto; etc.)
Duas ideias fundamentais habilitam sistemas multimodais:
- Alinhamento (alignment): aprender representações compartilhadas (por exemplo, aprendizado contrastivo (contrastive learning) como objetivos no estilo CLIP (CLIP-style objectives)) para que texto e imagens “se encontrem” no espaço de embeddings (embedding space).
- Atenção cruzada / fusão (cross-attention / fusion): permitir que uma modalidade condicione a geração em outra (por exemplo, tokens de texto atendendo a tokens de patches de imagem).
Modelos multimodais frequentemente herdam forças/fraquezas de cada modalidade:
- Podem descrever bem uma imagem, mas ter dificuldade para contar com confiabilidade.
- Podem seguir um prompt, mas perder restrições visuais sutis.
- Podem amplificar alucinações se o modelo “chutar” detalhes visuais que não estão presentes.
Para mais, veja Geração Multimodal.
Realidades de engenharia: escala, latência e dados
Comprimento de sequência e explosões de custo computacional
Mudanças de modalidade frequentemente alteram dramaticamente o comprimento efetivo de sequência:
- Texto: centenas a dezenas de milhares de tokens
- Imagem: potencialmente milhares de tokens de patch/latentes
- Áudio: dezenas de milhares de passos de tempo por segundo (se no nível de forma de onda)
- Vídeo: quadros × tokens de imagem → contextos muito grandes
Isso direciona escolhas de design como:
- Representações latentes (comprima!)
- Segmentação (chunking) e modelagem hierárquica
- Variantes eficientes de atenção (especialmente para contextos longos)
Disponibilidade de dados e rotulagem
- Texto: abundante, mas ruidoso; licenciamento e privacidade são grandes preocupações.
- Imagens: abundantes, mas legendas podem ser fracas; vieses de composição importam.
- Áudio: menos abundante; consentimento e direitos do locutor são críticos.
- Vídeo: caro para armazenar/computar; metadados frequentemente limitados.
Restrições de produto diferem
- Texto: iteração mais rápida, avaliação mais fácil no app
- Imagens: computação pesada, mas amigável a execução offline
- Áudio: sensível à latência para uso conversacional
- Vídeo: computação muito pesada e difícil de editar de forma determinística
Modos de falha e considerações de segurança diferem por modalidade
- Texto: alucinações, injeção de prompt (prompt injection), vazamento de dados (data leakage) (Prompting)
- Imagens: retratos enviesados, edições enganosas, remoção de marca d’água (watermarking), questões de propriedade intelectual (IP) e estilo
- Áudio: uso indevido de clonagem de voz, personificação, violações de consentimento
- Vídeo: deepfakes, desinformação persuasiva, manipulação de identidade em escala
Mitigações incluem:
- Governança de dados (dataset governance) e consentimento
- Filtros de conteúdo e aplicação de políticas
- Esforços de marca d’água/proveniência (provenance) (imperfeitos, mas melhorando)
- Revisão humano no ciclo (human-in-the-loop) para casos de uso de alto risco
Como escolher uma abordagem ao mudar de modalidades
Ao construir um sistema generativo, a modalidade determina a estratégia de modelagem mais prática:
- Se as saídas forem discretas e simbólicas (texto, código): transformers autorregressivos geralmente são os mais simples.
- Se as saídas forem contínuas e perceptuais (imagens, frequentemente vídeo): difusão/difusão latente é comum por qualidade e controlabilidade.
- Se as saídas exigirem streaming em tempo real (fala): modelos autorregressivos por tokens de codec ou modelos de difusão com poucos passos/destilados são favorecidos.
- Se você precisa de múltiplas modalidades: decida se você precisa
- apenas compreensão (codificar modalidades em embeddings), ou
- geração entre modalidades (decodificadores para cada modalidade, alinhamento e fusão).
Para decisões em nível de sistema — prompting vs ajuste fino vs recuperação — veja Playbook de Ajuste Fino e Recuperação e Ferramentas.
Resumo: o que muda entre modalidades
Ao longo de geração de texto, imagem, áudio, vídeo e multimodal, as “grandes mudanças” são:
- Representação: tokens vs pixels vs formas de onda vs latentes/codecs
- Objetivo de treinamento: predição do próximo token vs remoção de ruído vs modelagem mascarada
- Arquitetura: transformers de sequência vs U-Nets/autocodificadores vs módulos espaciotemporais
- Amostragem: decodificação autorregressiva rápida vs remoção de ruído/refinamento iterativo
- Avaliação: perplexidade/pontuações por tarefa vs métricas perceptuais vs MOS humano/coerência temporal
- Restrições operacionais: latência, computação e riscos de segurança mudam dramaticamente
Entender essas diferenças ajuda você a transferir intuição de uma modalidade (frequentemente texto) para outras sem assumir que as mesmas ferramentas, métricas ou modos de falha se manterão inalterados.