Modalidades

O que “modalidade (modality)” significa em IA generativa (generative AI)

Uma modalidade é um tipo de canal de informação com sua própria estrutura e restrições — mais comumente texto, imagens, áudio e vídeo. Em IA generativa, “mudar de modalidades” não significa apenas trocar formatos de entrada/saída. Isso muda:

Como os dados são representados (tokens discretos (discrete tokens) vs sinais contínuos (continuous signals))
O que os modelos aprendem (sintaxe/semântica (syntax/semantics) vs estrutura perceptual (perceptual structure) vs dinâmicas temporais (temporal dynamics))
Quais arquiteturas e objetivos funcionam bem
Como a geração é amostrada/decodificada
Como a qualidade é avaliada
Quais modos de falha (failure modes) e riscos de segurança dominam

Este artigo explica o que muda ao longo de geração de texto (text generation), geração de imagens (image generation), geração de áudio/fala (audio/speech generation), geração de vídeo (video generation) e geração multimodal (multimodal generation), conectando fundamentos teóricos e implicações práticas.

Aprofundamentos relacionados: Geração de Texto, Geração de Imagens, Geração de Áudio / Fala, Geração de Vídeo e Geração Multimodal. Para famílias de modelos, veja Modelagem Generativa e, especificamente para modelos de linguagem, veja Modelos de Linguagem de Grande Porte.

Uma visão unificadora: geração como modelagem de uma distribuição

Todos os modelos generativos buscam aprender uma distribuição de probabilidade sobre dados:

Aprender ( p(x) ) (geração incondicional (unconditional generation)), ou
Aprender ( p(x \mid c) ) (geração condicional (conditional generation)), onde ( c ) pode ser um prompt de texto (text prompt), uma imagem, um clipe de áudio, metadados etc.

O que muda por modalidade é a estrutura de (x):

Texto: uma sequência de símbolos discretos (tokens)
Imagem: uma grade 2D (pixels) com fortes correlações locais e invariâncias perceptuais
Áudio: um sinal temporal 1D com periodicidades, fase e estrutura em múltiplas escalas
Vídeo: um sinal 3D espaço-temporal (space-time) com movimento e restrições de consistência temporal de longo alcance

Essas diferenças estruturais levam a escolhas diferentes para:

Representação (representation) (tokens, latentes (latents), codecs)
Fatoração (factorization) (autorregressiva (autoregressive) vs difusão (diffusion) vs modelagem mascarada (masked modeling))
Viés indutivo (inductive bias) (atenção (attention) vs convolução (convolution) vs módulos temporais)
Amostragem (sampling) (temperatura/núcleo (temperature/nucleus) vs remoção de ruído iterativa (iterative denoising))
Avaliação (evaluation) (perplexidade (perplexity) vs FID (Fréchet Inception Distance) vs MOS (Mean Opinion Score) vs métricas temporais)

Representações: tokens, pixels, formas de onda e latentes

Texto: tokens discretos com um forte prior semântico

Texto é naturalmente discreto. Os modelos normalmente operam sobre IDs de tokens produzidos por tokenização (tokenization) (por exemplo, BPE/WordPiece). Essa discretização é conveniente:

O treinamento baseado em verossimilhança via predição do próximo token é direto.
As saídas já estão “comprimidas”: uma sequência de tokens é muito menor do que pixels/amostras de áudio.

Implicação-chave: a qualidade da geração depende fortemente de quão bem os tokens capturam morfologia, pontuação e scripts multilíngues.

Imagens: sinais contínuos de alta dimensão (frequentemente gerados no espaço latente)

Imagens normalmente são armazenadas como pixels (valores contínuos), mas a maioria dos modelos estado da arte gera imagens usando representações latentes (latent representations) por eficiência:

Espaço de pixels (pixel space): valores (H \times W \times 3); caro de modelar diretamente.
Tokens de patches (patch tokens): representam patches da imagem como tokens (comum em transformers de visão (vision transformers)).
Difusão latente (latent diffusion): comprime a imagem em um latente via um autocodificador (autoencoder), executa difusão no espaço latente, e então decodifica de volta para pixels.

Implicação-chave: a representação afeta fortemente nitidez, fidelidade e custo computacional.

Áudio: forma de onda vs espectrograma vs codecs neurais

Áudio pode ser representado como:

Forma de onda (waveform) (amostras no domínio do tempo): taxa de amostragem extremamente alta (por exemplo, 16 kHz → 16.000 valores/seg).
Espectrograma (spectrogram) (tempo-frequência): mais estruturado para modelagem, mas requer reconstrução de fase ou vocoders neurais (neural vocoders).
Codecs neurais (neural codecs) (discretos ou contínuos): compressão aprendida em tokens/latentes; popular para geração eficiente.

Implicação-chave: a geração de áudio costuma ser limitada por latência (latency) e coerência temporal (temporal coherence), e frequentemente precisa de uma etapa de “decodificador” (vocoder/decodificador de codec).

Vídeo: imagens + tempo (o problema de escala mais difícil)

Vídeo é, conceitualmente, uma sequência de quadros, mas a geração ingênua quadro a quadro quebra a coerência temporal. Representações incluem:

Baseada em quadros (frame-based) (pixels/latentes por quadro)
Latentes espaciotemporais (spatiotemporal latents)
Patches de vídeo tokenizados (tokenized video patches) com atenção temporal
Hierárquica (hierarchical) (movimento grosso + textura fina)

Implicação-chave: a geração de vídeo é dominada por consistência temporal, realismo de movimento e explosão do comprimento de sequência (sequence length explosion).

Objetivos de modelagem: o que o modelo é treinado para fazer

Modelagem autorregressiva (autoregressive modeling) (mais natural para texto)

A geração de texto normalmente usa um objetivo autorregressivo:

[ p(x) = \prod_t p(x_t \mid x_{<t}) ]

Isso se alinha perfeitamente com tokens discretos e oferece suporte a condicionamento flexível (prompts de sistema (system prompts), ferramentas, contexto recuperado). Veja Arquitetura Transformer.

Controles práticos de amostragem (temperatura, top-p) são padrão e rápidos.

Difusão / remoção de ruído (diffusion / denoising) (dominante para imagens, crescendo para áudio/vídeo)

Modelos de difusão (diffusion models) aprendem a reverter um processo de adição de ruído por remoção de ruído iterativa. Eles são eficazes para dados contínuos de alta dimensão e tendem a produzir alta qualidade perceptual.

Comuns em:

Texto-para-imagem (text-to-image)
Edição de imagens (restauração de áreas (inpainting), extensão de cena (outpainting))
Sistemas emergentes de texto-para-vídeo (text-to-video)
Geração de áudio em espaço latente/de codec

Trade-off: alta qualidade, mas a amostragem iterativa (iterative sampling) pode ser mais lenta do que a decodificação autorregressiva.

Modelagem mascarada (masked modeling) e latentes discretos

Alguns sistemas multimodais usam predição de tokens mascarados:

Mascare partes de uma imagem/sequência de tokens e aprenda a preenchê-las.
Funciona bem com codebooks discretos (discrete codebooks) (por exemplo, tokens no estilo VQ).

Isso pode ser útil para:

Completar imagens
Completar vídeos
Transformers multimodais de “token unificado”

Objetivos adversariais (adversarial objectives) (GANs) e abordagens híbridas (hybrid approaches)

Redes adversariais generativas (GANs) historicamente produziram imagens nítidas rapidamente, mas podem ser mais difíceis de treinar e controlar. Sistemas modernos frequentemente combinam ideias:

Difusão para fidelidade + orientação/controle
Perdas adversariais/perceptuais para realismo
Destilação (distillation) para velocidade (por exemplo, menos passos de difusão)

Mudanças de arquitetura entre modalidades

Texto: modelos de sequência com preocupações de contexto longo

Texto é 1D e discreto; transformers dominam. Os maiores pontos de pressão arquiteturais são:

Comprimento de contexto (context length) (o custo de atenção cresce aproximadamente de forma quadrática em tokens)
Uso de ferramentas / integração de recuperação (Recuperação e Ferramentas)
Alinhamento para seguir instruções (instruction-following alignment) (métodos do tipo RLHF/DPO)

Imagens: estrutura 2D e detalhes em múltiplas escalas

Modelos de imagem precisam capturar:

Textura e bordas locais
Composição global
Dependências multi-escala

Padrões arquiteturais incluem:

U-Nets (especialmente em difusão)
Transformers de visão com embeddings de patches
Autocodificadores para espaços latentes

Áudio: forte estrutura temporal e fase/identidade do locutor

Áudio exige:

Precisão temporal fina (microtemporização importa)
Estrutura de longo alcance (prosódia, ritmo)
Identidade do locutor e fonética (para fala)

Arquiteturas podem usar:

Decodificadores transformer sobre tokens de codec
Conformers (convolução + atenção)
Decodificadores no estilo difusão/vocoder para reconstrução de forma de onda

Vídeo: atenção espaciotemporal e limites de memória

Vídeo precisa de:

Realismo espacial por quadro
Identidade, iluminação e movimento consistentes no tempo
Tratamento eficiente de sequências longas

Complementos arquiteturais:

Blocos de atenção temporal
Convoluções 3D ou atenção espaço-tempo fatorada
Priors de movimento / módulos semelhantes a fluxo óptico (optical-flow-like modules)
Geração hierárquica (quadros-chave (keyframes) → interpolação (interpolation)/refinamento)

Condicionamento: como prompts e controles diferem por modalidade

Condicionamento é como você direciona a geração: (p(x \mid c)).

Condicionamento em texto

Modelos de texto são naturalmente condicionados por texto (instruções, exemplos). Técnicas de controle incluem:

Prompts de sistema e padrões de prompt (Prompting)
Saídas estruturadas (structured outputs) (esquemas JSON, chamada de funções (function calling))
Aumentação por recuperação (retrieval augmentation) (Recuperação e Ferramentas)
Ajuste fino (fine-tuning) para estilo ou domínio (Playbook de Ajuste Fino)

Exemplo: amostragem por temperatura/top-p para controle de estilo:

# Pseudocode for text sampling
tokens = []
for t in range(max_new_tokens):
    logits = model(tokens, context=prompt)
    logits = logits / temperature
    next_tok = sample_top_p(logits, p=0.9)
    tokens.append(next_tok)

Condicionamento em imagens

A geração de imagens frequentemente é condicionada por:

Prompts de texto (semântica global)
Imagens (imagem-para-imagem (image-to-image), transferência de estilo (style transfer))
Máscaras (inpainting)
Sinais de controle (control signals) (contornos de pose (pose edges), mapas de profundidade (depth maps), segmentação (segmentation))

Um mecanismo-chave em difusão é a orientação sem classificador (classifier-free guidance, CFG): ela fortalece a aderência à condição, frequentemente melhorando o alinhamento ao prompt (prompt alignment) ao custo de diversidade.

Condicionamento em áudio

A geração de áudio/fala pode ser condicionada por:

Texto (texto-para-fala (text-to-speech), TTS)
Embedding do locutor / áudio de referência (clonagem de voz (voice cloning))
Fonemas, contornos de pitch e temporização
Estrutura musical (tempo, acordes)

Condicionamento no estilo pipeline é comum (texto → fonemas → acústica → forma de onda).

Condicionamento em vídeo

O condicionamento em vídeo pode incluir:

Prompt de texto (descrição da cena)
Restrições do primeiro/último quadro
Guias de movimento (trajetória de câmera, sequências de pose)
Imagens de referência para consistência de personagem

Vídeo expõe um desafio único: a condição precisa restringir o tempo, não apenas o conteúdo.

Amostragem e decodificação: “um token por vez” vs “refinamento iterativo”

Texto: decodificação autorregressiva rápida com aleatoriedade controlável

A amostragem de texto é:

Sequencial (token por token)
De baixa latência e amigável a streaming
Altamente sensível às escolhas de decodificação (greedy vs beam vs núcleo (nucleus))

Imagens: remoção de ruído iterativa (difusão) ou decodificação direta (GAN/AR)

A amostragem por difusão executa um loop de passos de remoção de ruído:

# Pseudocode for diffusion sampling (conceptual)
z = gaussian_noise()
for t in reversed(range(T)):
    eps = unet(z, t, cond=prompt_embedding)
    z = denoise_step(z, eps, t)
img = decode_latent(z)

Esse “refinamento iterativo” se adequa bem à qualidade visual porque as restrições perceptuais são complexas e contínuas.

Áudio: restrições de streaming e sensibilidade a artefatos

A decodificação de áudio precisa evitar cliques, jitter e prosódia instável. Muitos sistemas:

Geram tokens de codec de forma autorregressiva e depois decodificam para forma de onda
Ou removem ruído no espaço latente com passos do tipo difusão
Enfatizam geração em streaming para TTS em tempo real

Vídeo: erros que se acumulam e deriva temporal

A amostragem precisa manter consistência entre quadros. Problemas comuns:

Deriva de identidade (identity drift) (rostos mudam sutilmente ao longo do tempo)
Cintilação (flicker) (mudanças de textura de quadro para quadro)
Incoerência de movimento

Mitigações incluem atenção temporal, perdas de consistência (consistency losses) e condicionamento em quadros/latentes anteriores.

Avaliação: o que significa “bom” muda por modalidade

Avaliação de texto

Métricas automáticas existem, mas são incompletas:

Perplexidade (orientada a treino)
Acurácia baseada em tarefas (QA, testes de código)
Julgamentos de preferência humana
Checagens de alucinação (hallucination)/factualidade (factuality) (frequentemente exigindo recuperação ou validadores externos)

Texto também é avaliado fortemente em utilidade e capacidade de seguir instruções.

Avaliação de imagens

Métricas comuns:

FID (similaridade de distribuição; imperfeito)
Pontuação CLIP (CLIP score) / proxies de alinhamento texto-imagem
Avaliação humana para estética e fidelidade ao prompt

A qualidade de imagem é fortemente perceptual; pequenos erros de pixel podem ser irrelevantes enquanto erros semânticos são críticos.

Avaliação de áudio

Áudio é frequentemente avaliado por:

MOS (Mean Opinion Score) de avaliadores humanos
Inteligibilidade baseada em reconhecimento automático de fala (ASR)
Métricas de similaridade de locutor (para clonagem de voz)
Detecção de artefatos (ruído, clipping)

Avaliação de vídeo

A mais difícil de avaliar automaticamente:

Qualidade de quadro + consistência temporal
Realismo de movimento
Coerência de longo alcance (história, ações) Existem métricas (por exemplo, pontuações de vídeo distribucionais), mas avaliação humana continua importante.

Aplicações práticas por modalidade

Aplicações de geração de texto

Assistentes de suporte ao cliente
Geração e refatoração de código
Sumarização e extração
Uso de ferramentas de forma agêntica (agentic) com saídas estruturadas

Texto geralmente é a modalidade mais fácil de integrar em fluxos de produto devido à baixa largura de banda e interfaces diretas.

Aplicações de geração de imagens

Arte conceitual, peças criativas para publicidade
Mockups de produto e iteração de design
Edição de fotos: inpainting, substituição de fundo
Geração de dados sintéticos (synthetic data) para modelos de visão (Dados Sintéticos para GenAI)

Aplicações de geração de áudio/fala

Texto-para-fala para acessibilidade e narração
Agentes de voz conversacionais (baixa latência importa)
Dublagem e localização
Geração de música e efeitos sonoros

Aplicações de geração de vídeo

Storyboarding e pré-visualização
Clipes de marketing e rascunhos de motion graphics
Simulação e dados sintéticos (limitado, mas crescendo)

Vídeo é poderoso, mas ainda desafiador operacionalmente devido a computação, controle de edição e preocupações de segurança.

Geração multimodal: quando modalidades se encontram

Geração multimodal cobre modelos que consomem e/ou produzem múltiplas modalidades, como:

Legendagem de imagens (image captioning) (imagem → texto)
Texto-para-imagem (texto → imagem)
Resposta a perguntas visuais (visual question answering) (imagem + texto → texto)
Compreensão de vídeo (vídeo → texto)
Assistentes multimodais (texto + imagens + áudio → texto/ações)
Sistemas unificados (texto + imagem → imagem; imagem + texto → texto; etc.)

Duas ideias fundamentais habilitam sistemas multimodais:

Alinhamento (alignment): aprender representações compartilhadas (por exemplo, aprendizado contrastivo (contrastive learning) como objetivos no estilo CLIP (CLIP-style objectives)) para que texto e imagens “se encontrem” no espaço de embeddings (embedding space).
Atenção cruzada / fusão (cross-attention / fusion): permitir que uma modalidade condicione a geração em outra (por exemplo, tokens de texto atendendo a tokens de patches de imagem).

Modelos multimodais frequentemente herdam forças/fraquezas de cada modalidade:

Podem descrever bem uma imagem, mas ter dificuldade para contar com confiabilidade.
Podem seguir um prompt, mas perder restrições visuais sutis.
Podem amplificar alucinações se o modelo “chutar” detalhes visuais que não estão presentes.

Para mais, veja Geração Multimodal.

Realidades de engenharia: escala, latência e dados

Comprimento de sequência e explosões de custo computacional

Mudanças de modalidade frequentemente alteram dramaticamente o comprimento efetivo de sequência:

Texto: centenas a dezenas de milhares de tokens
Imagem: potencialmente milhares de tokens de patch/latentes
Áudio: dezenas de milhares de passos de tempo por segundo (se no nível de forma de onda)
Vídeo: quadros × tokens de imagem → contextos muito grandes

Isso direciona escolhas de design como:

Representações latentes (comprima!)
Segmentação (chunking) e modelagem hierárquica
Variantes eficientes de atenção (especialmente para contextos longos)

Disponibilidade de dados e rotulagem

Texto: abundante, mas ruidoso; licenciamento e privacidade são grandes preocupações.
Imagens: abundantes, mas legendas podem ser fracas; vieses de composição importam.
Áudio: menos abundante; consentimento e direitos do locutor são críticos.
Vídeo: caro para armazenar/computar; metadados frequentemente limitados.

Restrições de produto diferem

Texto: iteração mais rápida, avaliação mais fácil no app
Imagens: computação pesada, mas amigável a execução offline
Áudio: sensível à latência para uso conversacional
Vídeo: computação muito pesada e difícil de editar de forma determinística

Modos de falha e considerações de segurança diferem por modalidade

Texto: alucinações, injeção de prompt (prompt injection), vazamento de dados (data leakage) (Prompting)
Imagens: retratos enviesados, edições enganosas, remoção de marca d’água (watermarking), questões de propriedade intelectual (IP) e estilo
Áudio: uso indevido de clonagem de voz, personificação, violações de consentimento
Vídeo: deepfakes, desinformação persuasiva, manipulação de identidade em escala

Mitigações incluem:

Governança de dados (dataset governance) e consentimento
Filtros de conteúdo e aplicação de políticas
Esforços de marca d’água/proveniência (provenance) (imperfeitos, mas melhorando)
Revisão humano no ciclo (human-in-the-loop) para casos de uso de alto risco

Como escolher uma abordagem ao mudar de modalidades

Ao construir um sistema generativo, a modalidade determina a estratégia de modelagem mais prática:

Se as saídas forem discretas e simbólicas (texto, código): transformers autorregressivos geralmente são os mais simples.
Se as saídas forem contínuas e perceptuais (imagens, frequentemente vídeo): difusão/difusão latente é comum por qualidade e controlabilidade.
Se as saídas exigirem streaming em tempo real (fala): modelos autorregressivos por tokens de codec ou modelos de difusão com poucos passos/destilados são favorecidos.
Se você precisa de múltiplas modalidades: decida se você precisa
- apenas compreensão (codificar modalidades em embeddings), ou
- geração entre modalidades (decodificadores para cada modalidade, alinhamento e fusão).

Para decisões em nível de sistema — prompting vs ajuste fino vs recuperação — veja Playbook de Ajuste Fino e Recuperação e Ferramentas.

Resumo: o que muda entre modalidades

Ao longo de geração de texto, imagem, áudio, vídeo e multimodal, as “grandes mudanças” são:

Representação: tokens vs pixels vs formas de onda vs latentes/codecs
Objetivo de treinamento: predição do próximo token vs remoção de ruído vs modelagem mascarada
Arquitetura: transformers de sequência vs U-Nets/autocodificadores vs módulos espaciotemporais
Amostragem: decodificação autorregressiva rápida vs remoção de ruído/refinamento iterativo
Avaliação: perplexidade/pontuações por tarefa vs métricas perceptuais vs MOS humano/coerência temporal
Restrições operacionais: latência, computação e riscos de segurança mudam dramaticamente

Entender essas diferenças ajuda você a transferir intuição de uma modalidade (frequentemente texto) para outras sem assumir que as mesmas ferramentas, métricas ou modos de falha se manterão inalterados.