Marcação d’água

O que “marca d’água” significa na proveniência em IA

No contexto de conteúdo gerado por IA, marca d’água é a prática de incorporar um sinal detectável no conteúdo (texto, imagens, áudio, vídeo) que permite a um verificador determinar posteriormente — de forma probabilística ou criptográfica — se o conteúdo provavelmente veio de um gerador, família de modelos, implantação ou pipeline de publicação específico.

A marca d’água é uma ferramenta dentro de uma estratégia mais ampla de proveniência. Ela difere de (e frequentemente complementa) metadados assinados e manifestos de proveniência como os discutidos em Proveniência de Conteúdo (Alto Nível), que visam estabelecer cadeias de autenticidade no nível de arquivo/pacote.

Um modelo mental útil:

  • Metadados de proveniência respondem: “Quem afirma ter produzido isto, e consegue provar com assinaturas?”
  • Marca d’água responde: “O próprio conteúdo contém um padrão detectável consistente com um gerador ou pipeline específico?”

Como as marcas d’água vivem no (ou são inseparáveis do) conteúdo, elas às vezes podem sobreviver a copiar/colar, capturas de tela, recodificação ou edições parciais — situações em que metadados frequentemente se perdem.

Por que aplicar marca d’água em saídas de IA?

Objetivos comuns incluem:

  • Divulgação de conteúdo gerado por IA: ajudar plataformas, jornalistas e usuários a identificar mídia provavelmente gerada por IA.
  • Dissuasão: aumentar o custo de uso indevido em larga escala (spam, golpes, desinformação) ao tornar as saídas detectáveis.
  • Atribuição / responsabilização: vincular conteúdo a um provedor de modelo, produto ou conta de cliente (mais parecido com “impressão digital”).
  • Aplicação de políticas: permitir que ferramentas de moderação tratem conteúdo com marca d’água de forma diferente (por exemplo, revisão mais rápida, menor amplificação).
  • Higiene de dataset (dataset hygiene): filtrar conteúdo gerado por IA ao construir conjuntos de dados de treinamento, reduzindo ciclos de retroalimentação.

Marca d’água também é usada em um contexto diferente — marca d’água de modelo (model watermarking) — para afirmar propriedade de pesos do modelo ou APIs (por exemplo, colocar marca d’água em parâmetros ou comportamentos de redes neurais). Esse tema é adjacente, mas distinto; este artigo foca principalmente em marca d’água de conteúdo (content watermarking) para saídas.

Conceitos e terminologia principais

Propriedades de marca d’água (as trocas clássicas)

Qualquer esquema de marca d’água equilibra:

  • Imperceptibilidade: a marca d’água não deve degradar a qualidade de forma perceptível (sem artefatos óbvios em imagens; sem frases estranhas em texto).
  • Robustez: deve sobreviver a transformações benignas (compressão, redimensionamento, recodificação, paráfrase).
  • Capacidade: quanta informação pode ser incorporada (um sinalizador de 1 bit “gerado por IA” vs. um ID de cliente).
  • Segurança: atacantes não devem conseguir detectar, remover ou forjar a marca d’água sem a chave.

Na prática, você raramente maximiza as quatro. Alta robustez e alta capacidade frequentemente reduzem a imperceptibilidade.

Tipos de detectores

  • Detecção por chave privada (private-key detection): apenas alguém com uma chave secreta pode detectar de forma confiável (e idealmente forjar). Comum em implantações sensíveis à segurança.
  • Detecção pública (public detection): qualquer pessoa pode verificar sem um segredo. Isso é atraente para transparência, mas aumenta o risco de atacantes aprenderem como remover ou falsificar.

Marcas d’água robustas vs. frágeis

  • Marca d’água robusta: destinada a sobreviver a edições e transformações normais.
  • Marca d’água frágil: quebra intencionalmente sob modificação; útil para detecção de adulteração (“este arquivo foi alterado”).

Para proveniência de saídas de IA, a marca d’água robusta geralmente é o objetivo.

Marca d’água vs. esteganografia vs. impressão digital

  • Esteganografia (steganography) oculta a existência de uma mensagem; marca d’água normalmente assume a possibilidade de detecção e foca em robustez.
  • Impressão digital (fingerprinting) frequentemente incorpora um identificador específico do destinatário (por exemplo, por usuário) para rastrear vazamentos; em IA, isso também pode ser aplicado a saídas geradas.

Como a marca d’água funciona para texto gerado por IA

A marca d’água em texto precisa funcionar dentro das restrições de Modelos de Linguagem Grandes e da amostragem de tokens. Uma família comum de métodos modifica o processo de amostragem para que o modelo fique levemente enviesado em direção a certos tokens determinados por uma chave secreta. Ao longo de muitos tokens, esse viés se acumula em um padrão estatisticamente detectável.

Uma marca d’água por “lista verde” (greenlist) (conceitual)

Uma abordagem amplamente discutida (em várias formas na literatura) é:

  1. A cada passo de geração, usar uma chave secreta e o contexto anterior para particionar deterministicamente o vocabulário em:
    • Tokens da lista verde (preferidos)
    • Tokens da lista vermelha (menos preferidos)
  2. Aumentar levemente logits/probabilidades de tokens da lista verde durante a amostragem.
  3. Posteriormente, um detector recalcula a mesma partição verde/vermelha e verifica se o texto contém mais tokens verdes do que o esperado ao acaso.

Se o viés for pequeno o suficiente, o texto permanece fluente; se o texto for longo o suficiente, o detector ganha confiança estatística.

Exemplo de pseudocódigo (marca d’água por viés de logit)

import hashlib
import numpy as np

def greenlist(vocab_size, key: bytes, context: bytes, fraction=0.5):
    # Deterministically select ~fraction of token IDs as green for this context
    seed = hashlib.sha256(key + context).digest()
    rng = np.random.default_rng(int.from_bytes(seed[:8], "big"))
    perm = rng.permutation(vocab_size)
    k = int(fraction * vocab_size)
    return set(perm[:k])

def apply_watermark(logits, green_ids, delta=1.0):
    # Add a small positive bias to green tokens
    logits = logits.copy()
    for tid in green_ids:
        logits[tid] += delta
    return logits

def detect_watermark(token_ids, key, contexts, vocab_size, fraction=0.5):
    # Count how many tokens fell in the greenlist sets
    green_hits = 0
    for t, ctx in zip(token_ids, contexts):
        g = greenlist(vocab_size, key, ctx, fraction)
        green_hits += (t in g)
    # Compare to expected rate under null hypothesis (fraction)
    n = len(token_ids)
    expected = fraction * n
    return green_hits, expected

Sistemas reais acrescentam detalhes (tratamento de tokens subpalavra, interações com temperatura/top-p na amostragem, evitar viés em tokens sensíveis e uso de testes de hipótese rigorosos).

Restrições práticas para marca d’água em texto

  • Textos curtos são difíceis: a detecção estatística precisa de tokens suficientes.
  • Paráfrase pesada pode quebrar: se um atacante reescrever o texto com outro modelo ou um parafraseador, o sinal no nível de token pode desaparecer.
  • Tradução frequentemente é destrutiva: traduzir para outro idioma e voltar pode remover padrões de marca d’água.
  • Configurações de amostragem importam: temperatura muito baixa (saída determinística) ou top-k/top-p agressivos podem enfraquecer ou complicar o sinal.

Marca d’água para imagens, áudio e vídeo

Para mídia contínua, marca d’água frequentemente toma emprestado do processamento de sinais clássico: incorporar padrões em componentes de frequência menos perceptíveis, mas que sobrevivem à compressão.

Marca d’água em imagens (alto nível)

Estratégias comuns incluem:

  • Domínio espacial: perturbar diretamente os pixels (simples, mas frequentemente menos robusto).
  • Domínio da frequência: incorporar em coeficientes DCT/DWT (frequentemente mais robusto a JPEG, redimensionamento).

Uma marca d’água robusta típica pode:

  1. Converter a imagem para uma representação em frequência (por exemplo, DCT em blocos como JPEG).
  2. Modificar coeficientes de média frequência usando uma sequência pseudoaleatória derivada de uma chave.
  3. Reconstruir a imagem; as mudanças são projetadas para serem visualmente sutis.
  4. Detectar correlacionando coeficientes extraídos com o padrão pseudoaleatório esperado.

Exemplo ilustrativo mínimo (incorporação DCT conceitual)

# Conceptual sketch — not production-safe and omits many details
# Steps: DCT -> add keyed pattern to mid-frequencies -> inverse DCT

def embed_coeffs(coeffs, key_seed, strength=0.05):
    rng = np.random.default_rng(key_seed)
    pattern = rng.standard_normal(size=coeffs.shape)
    # Embed mainly in mid frequencies (mask chosen by design)
    mask = make_mid_freq_mask(coeffs.shape)
    return coeffs + strength * pattern * mask

def detect(coeffs, key_seed):
    rng = np.random.default_rng(key_seed)
    pattern = rng.standard_normal(size=coeffs.shape)
    mask = make_mid_freq_mask(coeffs.shape)
    score = np.sum(coeffs * pattern * mask)
    return score

Sistemas de produção normalmente incluem sincronização (para lidar com recorte/rotação), modelos perceptuais (para preservar qualidade) e limiares de decisão robustos.

Áudio e vídeo

  • Marca d’água em áudio frequentemente mira bandas de frequência menos perceptíveis para humanos e robustas à compressão MP3/AAC.
  • Marca d’água em vídeo precisa sobreviver a recodificação, escalonamento, perda de quadros e sobreposições; pode combinar marcas por quadro com redundância temporal.

Marca d’água específica de modelos generativos (por exemplo, difusão)

Para Modelos de Difusão e geradores de imagem, a pesquisa explora incorporar sinais durante a geração (no espaço latente ou em cronogramas de ruído), não apenas como uma etapa de pós-processamento. Isso pode melhorar a robustez, mas depende de controlar o pipeline de geração.

Modelos de ameaça: quem está atacando, o que querem?

Um modelo de ameaça de marca d’água útil especifica:

  • Objetivo do atacante
  • Capacidades do atacante
  • O que conta como sucesso (remoção, falsificação, ambiguidade)
  • Danos colaterais aceitáveis (perda de qualidade tolerada pelo atacante)

Objetivos do atacante

  1. Remoção (evasão): produzir conteúdo que pareça sem marca d’água.
  2. Falsificação (spoofing): fazer o conteúdo parecer marcado (ou marcado como se fosse de outra pessoa).
  3. Ambiguidade: criar incerteza para que detectores não consigam decidir com confiança.
  4. Extração de chave: inferir chaves secretas ou comportamento do detector via consultas.
  5. Armadilha de atribuição: incorporar a marca d’água de outra pessoa para implicá-la.

Capacidades do atacante (categorias comuns)

  • Caixa-preta (black-box): só vê saídas com marca d’água; pode consultar um detector público.
  • Caixa-cinza (gray-box): conhece a família de algoritmos, mas não a chave; pode ter acesso a muitas amostras.
  • Caixa-branca (white-box): tem acesso total ao modelo, ao código de incorporação de marca d’água e possivelmente à chave (por exemplo, ameaça interna).

Ataques típicos

Ataques em texto

  • Paráfrase: reescrever com outro modelo, substituição de sinônimos, reordenação de frases.
  • Idas e voltas de tradução: L1 → L2 → L1.
  • Sumarização e expansão: comprimir e depois re-elaborar.
  • “Lavagem” por amostragem: gerar múltiplos candidatos e escolher um com pontuação baixa de marca d’água se um detector estiver disponível.
  • Ruído por inserção: adicionar tokens aleatórios, erros de digitação ou frases irrelevantes para diluir o sinal.

Ataques em imagem/áudio/vídeo

  • Compressão e recodificação: JPEG/WEBP; MP3/AAC; transcodificação de vídeo.
  • Transformações geométricas: recortar, rotacionar, redimensionar, mudanças de aspecto.
  • Filtragem: desfocar/realçar, remover ruído, recolorir, equalização de histograma.
  • Captura de tela / recaptura por câmera: exibir na tela e regravar (muito destrutivo para muitas marcas d’água).
  • Regeneração: usar um modelo de imagem-para-imagem para “redesenhar” o conteúdo.

Ataques ao detector e à chave

  • Sondagem do detector: se existir uma API pública de “marcado/não marcado”, atacantes podem modificar adaptativamente o conteúdo para inverter a decisão.
  • Ataques de conluio: combinar múltiplas amostras marcadas (especialmente se compartilham estrutura) para estimar e subtrair a marca d’água.
  • Extração / destilação de modelo (model extraction / distillation): se a marca d’água estiver ligada ao comportamento de um gerador específico, atacantes podem tentar destilar um novo modelo que produza saídas similares, mas sem a marca d’água.

Esses temas se relacionam de perto com tópicos mais amplos em Aprendizado de Máquina Adversarial.

Limitações e modos de falha

A marca d’água é valiosa, mas não é uma solução mágica. Limitações importantes incluem:

1) Marcas d’água raramente fornecem uma prova de origem

Uma marca d’água detectada normalmente sustenta uma afirmação como:

  • “Este conteúdo é consistente com ter sido gerado pelo sistema X sob a chave K.”

Frequentemente ela não consegue provar:

  • a versão específica do modelo,
  • o prompt,
  • a identidade do usuário,
  • ou que o conteúdo não foi editado posteriormente.

Para alegações fortes de proveniência, marca d’água frequentemente é combinada com metadados assinados (ver Proveniência de Conteúdo (Alto Nível)) e registro operacional.

2) Problemas de taxa-base e falso positivo

Mesmo um detector com baixa taxa de falso positivo pode produzir muitas acusações falsas se a taxa-base de conteúdo gerado por IA for baixa na população avaliada.

Implicação prática: resultados de detecção de marca d’água devem ser tratados como um sinal entre muitos, com calibração cuidadosa e relato transparente de incerteza.

3) Fragilidade sob transformações

  • Marcas d’água em texto podem ser frágeis sob paráfrase, tradução ou edição humana.
  • Marcas d’água em mídia podem ser degradadas por recaptura ou pós-processamento pesado.

Uma marca d’água robusta deve definir quais transformações pretende suportar.

4) Detectabilidade pública pode habilitar remoção e falsificação

Se todos podem verificar, atacantes frequentemente conseguem:

  • testar modificações até a detecção falhar (evasão),
  • ou aprender padrões para falsificar a detecção (spoofing).

Detectores privados reduzem esse risco, mas reduzem transparência e verificação independente.

5) Colisões de marca d’água e interoperabilidade

Se múltiplas organizações implantam marcas d’água diferentes:

  • um conteúdo pode conter múltiplas marcas (algumas acidentais),
  • detectores podem discordar,
  • limiares e alegações tornam-se difíceis de padronizar.

Isso motiva esforços de padronização, mas a padronização também pode facilitar o desenvolvimento de ataques.

6) Restrições de incentivo e adoção

Marca d’água só ajuda amplamente se:

  • grandes provedores de modelos a adotarem,
  • plataformas integrarem a detecção,
  • e houver políticas claras e expectativas dos usuários.

Modelos de código aberto, ajustes finos (finetunes) e implantações personalizadas podem optar por não usar, limitando a cobertura.

7) Uso indevido e preocupações éticas

Marca d’água pode permitir responsabilização, mas também pode permitir:

  • vigilância (rastrear conteúdo entre plataformas),
  • aplicação seletiva (apenas alguns provedores usam marca d’água),
  • efeitos inibidores para anonimato benigno.

Uma implantação responsável requer governança clara, transparência e recurso para usuários.

Aplicações práticas e escolhas de design

Rotulagem de conteúdo e fluxos de moderação

Um uso prático comum é alimentar a detecção de marca d’água na moderação como uma característica de risco, não como um veredito:

  • Se marca d’água detectada + outros sinais de risco altos → priorizar revisão.
  • Se marca d’água ausente → não presumir “feito por humano”.

Rastreamento de vazamentos (impressão digital)

Para uso corporativo, um provedor pode incorporar marcas específicas do cliente (por exemplo, em imagens geradas) para rastrear exfiltração. Isso aumenta a responsabilização, mas levanta questões de privacidade e devido processo: “Quão certo é o match?” e “E se o conteúdo for editado?”

Filtragem de datasets

Ao curar dados de treinamento, a detecção de marca d’água pode ser usada para:

  • remover conteúdo provavelmente gerado por IA,
  • ou rotulá-lo para tratamento separado, evitando ciclos de retroalimentação que levam ao colapso do modelo.

Combinar marca d’água com proveniência por metadados

Uma boa prática pragmática é uma abordagem de cinto e suspensórios (belt-and-suspenders):

  • Metadados de proveniência assinados (fortes quando preservados)
  • Marca d’água no conteúdo (útil quando metadados são removidos)

Essas ferramentas falham de maneiras diferentes; combinadas, são mais resilientes.

Avaliando sistemas de marca d’água

Uma avaliação rigorosa normalmente reporta:

  • Curvas de robustez: taxa de detecção vs. severidade das transformações (nível de compressão, % de recorte, força de paráfrase).
  • Impacto na qualidade: avaliação humana, métricas perceptuais ou proxies no estilo BLEU/ROUGE (com cautela para texto).
  • Análise de segurança: desempenho sob ataques adaptativos (atacante pode consultar o detector) vs. ataques não adaptativos.
  • Controles de falso positivo: testes em corpora/distribuições de mídia “limpas” diversas.
  • Calibração: escores de confiança do detector e limiares adequados para decisões posteriores.

Para marca d’água em texto, as avaliações devem incluir múltiplos estilos de escrita, domínios e idiomas, e considerar diferentes estratégias de amostragem.

Orientação recomendada guiada por modelo de ameaça

Ao decidir se e como usar marca d’água, comece pelo modelo de ameaça:

  • Se seu principal risco é repostagem benigna (metadados removidos): marca d’água robusta em mídia pode ajudar.
  • Se seu principal risco é adversários motivados: assuma ataques de paráfrase/regeneração e trate marca d’água como dissuasão, não como prevenção.
  • Se você precisa de verificabilidade pública: considere os riscos de falsificação/remoção e projete para incerteza transparente (por exemplo, “provável” em vez de “comprovado”).
  • Se você precisa de atribuição forte: combine marca d’água com proveniência criptográfica e logs seguros; marca d’água sozinha normalmente é insuficiente.

Direções atuais de pesquisa (o que está evoluindo)

Marca d’água para IA é uma área de pesquisa ativa. Direções principais incluem:

  • Marca d’água robusta em texto sob paráfrase e tradução (problema difícil).
  • Marca d’água em espaços latentes para modelos generativos de imagem/vídeo para melhorar robustez.
  • Interfaces padronizadas de divulgação e verificação que equilibrem transparência com segurança.
  • Esquemas de marca d’água treinados adversarialmente que antecipem remoção adaptativa.
  • Melhor relato de incerteza para reduzir atribuições excessivamente confiantes.

Resumo

Marca d’água incorpora um sinal detectável em conteúdo gerado por IA para apoiar proveniência, divulgação e responsabilização. Ela é mais eficaz quando:

  • o modelo de ameaça é claramente definido,
  • a detecção é tratada como evidência probabilística,
  • os sistemas são avaliados sob transformações realistas e ataques adaptativos,
  • e a marca d’água é combinada com metadados de proveniência assinados e controles operacionais.

Suas limitações centrais — especialmente vulnerabilidade a regeneração/paráfrase, adaptividade contra detectores públicos e a incapacidade de fornecer prova criptográfica de origem por si só — significam que a marca d’água deve ser vista como um componente importante de uma estratégia mais ampla de proveniência e autenticidade, não como uma solução independente.