Política de Conteúdo e Moderação

O que “Política de Conteúdo e Moderação” Significa para Sistemas Generativos

Política de conteúdo define o que um sistema de IA generativa (generative AI) pode produzir, em quais condições e o que ele deve recusar ou transformar. Moderação é o conjunto de mecanismos técnicos e operacionais que fazem a política valer em produção: detecção, roteamento, modelagem da resposta, escalonamento para humanos, registro (logging) e melhoria contínua.

Em plataformas sociais clássicas, a moderação trata principalmente de posts gerados por usuários. Em sistemas generativos, a moderação precisa tratar de ambos:

  • Entradas do usuário (prompts (prompts), uploads, chamadas de ferramentas (tool calls), documentos recuperados)
  • Saídas do modelo (texto, imagens, código, fala, ações)

Como o modelo é um gerador ativo, sua política precisa lidar com risco composicional (prompts benignos que se tornam prejudiciais quando combinados com contexto) e risco de capacidade (o modelo pode produzir conteúdo convincente em escala).

Este artigo foca em desenhar políticas e operar um programa de moderação que seja auditável, mensurável e compatível com a governança organizacional (veja Avaliações de Risco, Auditorias e Documentação e Framework de Gestão de Risco de IA do NIST).

Por que a Moderação é Diferente para Modelos de Linguagem Grandes e Geradores

Modelos generativos introduzem vários desafios de moderação além da filtragem tradicional de conteúdo:

  • Abertura: o espaço de saídas possíveis é enorme; você não consegue enumerar todas as strings proibidas.
  • Sensibilidade ao contexto: o mesmo conteúdo pode ser educacional, artístico ou prejudicial dependendo de intenção e público.
  • Seguimento de instruções: usuários podem tentar “jailbreaks” para sobrescrever restrições de segurança (uma forma de Aprendizado de Máquina Adversarial).
  • Uso de ferramentas e tomada de ação: em sistemas agênticos (agentic systems), a política deve cobrir ações (por exemplo, enviar e-mails, executar código), não apenas texto.
  • Multimodalidade (multi-modal): imagens e áudio podem embutir conteúdo proibido ou instruções (por exemplo, texto oculto em imagens).
  • Mudança de distribuição e deriva (distribution shift and drift): com o tempo, o comportamento do usuário muda; o modelo pode mudar; o desempenho de segurança pode regredir.

Uma abordagem viável trata a moderação como um sistema sociotécnico (socio-technical system): classificadores (classifiers) + regras + revisão humana + governança + monitoramento contínuo.

Conceitos Centrais e Fundamentos Teóricos

Política como uma “especificação normativa”

Uma política de conteúdo é um documento normativo: ela codifica valores e obrigações (legais, éticas, de marca, de produto). Ela deve ser:

  • Clara (não ambígua o suficiente para treinar humanos e implementar sistemas)
  • Consistente (casos similares tratados de forma similar)
  • Acionável (mapeia para ações de aplicação)
  • Testável (pode ser avaliada com conjuntos de dados e métricas)

Taxonomias de dano

A maioria dos programas de moderação define categorias de dano. Categorias comuns para IA generativa incluem:

  • Violência e ameaças (incluindo incitação)
  • Autolesão e suicídio (incluindo encorajamento; tratamento especial para apoio em crise)
  • Ódio e assédio (classes protegidas, insultos, estereótipos degradantes)
  • Conteúdo sexual (especialmente menores/CSAM: deve ter tolerância zero e ser reportável)
  • Atos ilícitos (instruções para cometer crimes, armas, fraude)
  • Privacidade e dados pessoais (doxxing, reidentificação, vazamento de dados sensíveis)
  • Aconselhamento médico e jurídico (orientação de alto impacto; exigir avisos e limites seguros)
  • Extremismo e radicalização
  • Desinformação e engano (personificação, golpes, citações fabricadas)
  • Propriedade intelectual/direitos autorais (reprodução literal, ajuda para pirataria)
  • Bens regulados (drogas, jogos de azar, tabaco; depende da jurisdição)

Em geral, você ainda rotula cada categoria por severidade, alvo e intenção:

  • Severidade: baixa → alta (por exemplo, insulto leve vs. assédio direcionado)
  • Alvo: indivíduo vs. grupo
  • Intenção: informacional vs. facilitação vs. promoção

Esse enquadramento multi-eixo é crucial porque saídas de modelos de linguagem grandes (LLMs) frequentemente são ambíguas; a política precisa resolver ambiguidade com regras consistentes.

Moderação baseada em risco (não “tamanho único”)

Uma postura prática de moderação é baseada em risco:

  • Alguns conteúdos são sempre proibidos (por exemplo, conteúdo sexual envolvendo menores).
  • Alguns conteúdos são permitidos com restrições (por exemplo, violência em um resumo histórico).
  • Alguns conteúdos são permitidos, mas exigem enquadramento de segurança (por exemplo, ideação de autolesão → recursos de crise e recusa de fornecer instruções).

O pensamento baseado em risco conecta a política aos controles organizacionais descritos no Framework de Gestão de Risco de IA do NIST e aos artefatos operacionais em Cartões do Sistema.

Desenhando uma Política de Conteúdo

Etapa 1: Definir escopo e “área de superfície da política”

Liste o que o sistema consegue fazer:

  • Respostas em chat
  • Geração de imagens
  • Geração de código
  • Respostas aumentadas por recuperação (retrieval-augmented answers, RAG)
  • Chamadas de ferramentas (e-mail, calendário, banco de dados, pagamentos)
  • Memória/personalização

Cada capacidade cria uma área de superfície da política. Por exemplo, chamadas de ferramentas exigem política orientada a ações (“o assistente não deve iniciar uma transferência bancária sem confirmação explícita do usuário”).

Etapa 2: Especificar conteúdo permitido vs. proibido vs. permitido com restrições

Uma estrutura comum de política:

  • Proibido: deve recusar, bloquear ou escalar
  • Permitido: pode atender normalmente
  • Permitido com restrições: atender com proteções (tom, avisos, redação, sem instruções passo a passo)

Exemplo (simplificado):

  • Proibido: “Forneça instruções para fazer um explosivo.”
  • Permitido com restrições: “Explique a história de explosivos na mineração” (sem instruções procedimentais).
  • Permitido: “Resuma regulamentações de segurança em alto nível.”

Etapa 3: Definir ações de aplicação

Ações típicas incluem:

  1. Permitir (sem intervenção)
  2. Conclusão segura (safe completion) (responder a uma pergunta adjacente mais segura)
  3. Recusar (recusa breve + oferecer alternativas)
  4. Avisar/educar (lembrete da política)
  5. Redigir (redact) (remover dados pessoais ou trechos proibidos)
  6. Escalar para revisão humana
  7. Controles em nível de conta (limitação de taxa (rate limit), bloqueio temporário, banimento)

A política deve mapear explicitamente categorias × severidades × contextos para uma ação.

Etapa 4: Criar exemplos e notas de decisão

Políticas são interpretadas por pessoas e por modelos. Inclua:

  • Exemplos positivos (o que é permitido)
  • Exemplos negativos (o que é proibido)
  • Exemplos “limítrofes” com justificativa

Mantenha exemplos representativos sem reproduzir instruções prejudiciais.

Etapa 5: Documentar em artefatos de governança

Sua política deve ser referenciada (e versionada) em:

Arquitetura de Moderação: Onde a Aplicação Acontece

Um sistema robusto usa múltiplas camadas:

1) Moderação de entrada (antes do modelo)

Objetivos:

  • Bloquear solicitações proibidas cedo
  • Detectar contexto de alto risco e rotear para fluxos mais seguros
  • Reduzir exposição a prompts de jailbreak e injeção de prompt (prompt injection)

Métodos:

  • Classificadores de texto/imagem
  • Verificações por padrão/regra (PII, insultos, frases de autolesão)
  • Classificação de “intenção” (busca de ajuda vs. malicioso)
  • Limitação de taxa e detecção de abuso

Exemplo:

  • Se a entrada for “Me diga como arrombar um carro”, bloquear ou recusar.
  • Se a entrada for “Eu sinto vontade de me machucar”, rotear para um fluxo de resposta seguro para crise.

2) Segurança no modelo (durante a geração)

Isso inclui:

  • Ajuste fino de segurança (safety fine-tuning) (por exemplo, ajuste por instruções (instruction tuning), Aprendizado por Reforço a partir de Feedback Humano)
  • Prompts de sistema (system prompts) / regras constitucionais (constitutional rules)
  • Restrições no momento de decodificação (decoding-time constraints) (menos comum, mas possível)
  • Restrições de uso de ferramentas (lista de permissão (allowlist) de ferramentas e esquemas)

Limitação importante: você não deve depender apenas de prompts para aplicação; prompts não são uma fronteira de segurança.

3) Moderação de saída (depois do modelo)

Escaneie o conteúdo gerado antes de ele chegar ao usuário:

  • Classificar a saída para violações da política
  • Redigir ou reescrever partes proibidas
  • Acionar recusas ou escalonamento humano

A moderação de saída é essencial porque até prompts benignos podem gerar saídas problemáticas.

4) Monitoramento pós-hoc (após a entrega)

  • Denúncias e apelações de usuários
  • Registro automatizado e detecção de anomalias
  • Auditorias periódicas e red teaming
  • Testes de regressão contra falhas conhecidas

Isso se conecta diretamente a Relato de Incidentes e Transparência.

Um Pipeline Prático de Moderação (Exemplo)

Abaixo está uma arquitetura simplificada mostrando como equipes costumam conectar a aplicação em uma pilha de modelos de linguagem grandes em produção (LLM stack).

def handle_request(user_id, user_text, attachments=None):
    # 1) Input checks
    input_result = moderate_input(user_text, attachments)
    if input_result.action == "BLOCK":
        return refusal(input_result.reason, safe_alternatives=True)

    if input_result.action == "ESCALATE":
        ticket_id = create_human_review_ticket(user_id, user_text, attachments)
        return pending_review_message(ticket_id)

    # 2) Generate
    draft = llm_generate(
        system_prompt=policy_system_prompt(),
        user_text=user_text,
        tools=tool_allowlist_for_user(user_id),
        safety_tags=input_result.tags,
    )

    # 3) Output checks
    output_result = moderate_output(draft)
    if output_result.action == "ALLOW":
        return draft

    if output_result.action == "REDACT":
        return redact(draft, output_result.spans)

    if output_result.action == "SAFE_COMPLETE":
        return safe_completion(user_text, output_result.reason)

    if output_result.action == "REFUSE":
        return refusal(output_result.reason, safe_alternatives=True)

    # 4) Fallback: conservative behavior
    return refusal("I can’t help with that request.", safe_alternatives=True)

Ideia operacional chave: a moderação retorna uma ação, não apenas um rótulo.

Técnicas Usadas em Sistemas de Moderação

Classificadores (modelos pequenos ou detectores especializados)

Prós:

  • Rápidos, escaláveis, consistentes
  • Fáceis de definir limiares e monitorar

Contras:

  • Falsos positivos/negativos
  • Dificuldade com contexto nuançado e conteúdo multilíngue

Boas práticas:

  • Manter limiares por categoria (ódio vs. autolesão frequentemente precisam de pontos de operação diferentes)
  • Acompanhar desempenho por idioma, região e segmento de usuário
  • Calibrar pontuações (especialmente se usadas para bloqueio automatizado)

Regras e heurísticas

Úteis para:

  • Padrões de PII (e-mails, números de telefone, CPFs)
  • Listas conhecidas de insultos (com tratamento cuidadoso para evitar bloqueio excessivo em contextos de ressignificação)
  • Listas de bloqueio (blocklists) de URL/domínio
  • Regras de permitir/negar chamadas de ferramentas

Regras são frágeis sozinhas, mas eficazes como parte de uma abordagem em camadas.

LLM como juiz (LLM-as-a-judge) (moderação baseada em modelo)

Você pode usar um modelo de linguagem grande para classificar conteúdo em relação ao texto da política.

Prós:

  • Lida melhor com nuance e contexto
  • Pode fornecer justificativas (útil para trilhas de auditoria)

Contras:

  • Maior latência/custo
  • Pode ser inconsistente, sensível a prompt e vulnerável a formulações adversariais
  • Deve ser avaliado com cuidado (não assuma que está “correto”)

Um padrão pragmático é a moderação híbrida (hybrid moderation):

  • Usar classificadores rápidos para a maior parte do tráfego
  • Usar julgamento por modelo de linguagem grande para casos limítrofes ou para gerar justificativas estruturadas para revisão humana

Revisão humana no loop (human-in-the-loop)

Humanos são essenciais para:

  • Apelações e disputas
  • Categorias de alta severidade
  • Desenvolvimento de política e casos extremos
  • Rotulagem contínua para conjuntos de dados de avaliação

Considerações operacionais:

  • Treinamento de moderadores, garantia de qualidade e bem-estar (exposição a conteúdo perturbador)
  • Caminhos claros de escalonamento e SLAs de resposta
  • Conhecimento por jurisdição (normas legais/médicas/regionais)

Tratando Categorias Especiais e de Alto Impacto

Autolesão

Sistemas devem distinguir:

  • Ideação/busca de ajuda (“Quero me machucar”) → resposta de apoio, incentivar ajuda profissional, recursos de crise
  • Busca por instruções (“Como eu…”) → recusar orientação procedimental, fornecer recursos de segurança

Uma boa política define um playbook de resposta a crise e garante comportamento consistente.

Aconselhamento médico, jurídico e financeiro

As abordagens variam por produto, mas salvaguardas comuns:

  • Incentivar consulta profissional para diagnóstico/questões urgentes
  • Evitar prescrever substâncias controladas ou táticas jurídicas específicas
  • Fornecer informação geral e fazer perguntas de esclarecimento
  • Usar avisos sem fingir que avisos por si só resolvem o risco

Privacidade e dados pessoais

A moderação deve cobrir:

  • Pedidos de doxxing (“me dê o endereço dela”)
  • Tentativas de reidentificação
  • Coleta proibida de dados sensíveis
  • Vazamento acidental via memória ou logs

Também garanta que seus registros e análises estejam em conformidade com requisitos de privacidade (veja LGPD (Brasil) para Sistemas de IA quando aplicável).

Política Encontra Produto: Padrões de UX que Melhoram a Segurança

A moderação é mais eficaz quando a UI ajuda usuários a permanecerem dentro de limites seguros:

  • Recusa com alternativas: redirecionar para objetivos permitidos (“Não posso ajudar com isso, mas posso explicar a lei em alto nível.”)
  • Formulários de entrada estruturados: restringir solicitações de alto risco (por exemplo, triagem de sintomas médicos com proteções)
  • Confirmações para ações: confirmação explícita antes da execução de ferramenta
  • Sinais de transparência: “Isto é informação geral, não aconselhamento profissional” quando apropriado
  • Denúncia do usuário: denúncia fácil de saídas inseguras e ciclos de feedback

Medindo a Qualidade da Moderação

Você não consegue melhorar o que não mede. Métricas comuns:

Avaliação offline (conjuntos de teste)

  • Precisão/recall (precision/recall) por categoria
  • Taxa de falso positivo (false positive rate, FPR) em conteúdo benigno
  • Taxa de falso negativo (false negative rate, FNR) em conteúdo proibido
  • Robustez a paráfrases, variantes multilíngues e ofuscação

Avaliação online (produção)

  • Taxa de violação (estimada) ao longo do tempo
  • Taxa de denúncia do usuário e resultados de apelação
  • Sobrecarga de latência
  • Taxa de “recusa excessiva” (usuários bloqueados em usos legítimos)
  • Monitoramento de deriva (mudanças após atualizações de modelo ou política)

Conjuntos de dados dourados (golden datasets): mantenha conjuntos de avaliação curados e versionados vinculados às versões de política. Trate isso de forma similar a uma suíte de regressão (regression suite) em engenharia de software.

Governança Operacional: Rodando a Moderação como um Programa

Papéis e responsabilidades

Programas eficazes definem uma estrutura tipo RACI:

  • Dono da política (frequentemente Trust & Safety / Jurídico / Produto)
  • Dono de engenharia (implementação, monitoramento, ferramentas)
  • Dono de dados/ML (classificadores, avaliação, calibração)
  • Operações humanas (equipes de revisão, QA)
  • Partes interessadas de segurança e privacidade (registro, abuso, resposta a incidentes)

Gestão de mudanças

Políticas evoluem. Toda mudança de política deve ter:

  • Um número de versão e data de vigência
  • Justificativa e vinculação a avaliação de risco (veja Avaliações de Risco)
  • Testes atualizados e resultados de avaliação
  • Plano de comunicação (interno + possivelmente externo)

Prontidão para auditoria

Auditores frequentemente querem ver:

  • Documentos de política e mapeamentos para aplicação
  • Evidência de testes e monitoramento
  • Logs de incidentes e ações corretivas
  • Materiais de treinamento para revisores
  • Documentação em nível de sistema (veja Auditorias e Documentação)

Resposta a Incidentes e Transparência

Quando a moderação falha (e vai falhar), você precisa de um caminho claro:

  • Triar severidade (dano ao usuário, exposição legal, escala)
  • Conter (regras de correção rápida (hotfix), limitar funcionalidades, reversão (rollback) do modelo)
  • Investigar (padrões de prompt, deriva de classificador, vetores de jailbreak)
  • Remediar (atualização de política, atualização de modelo, novos testes)
  • Comunicar apropriadamente (veja Relato de Incidentes e Transparência)

Uma equipe madura trata incidentes como oportunidades de aprendizado e os incorpora em testes de regressão.

Modos de Falha Comuns (e Como Mitigá-los)

  • Bloqueio excessivo de conteúdo benigno (por exemplo, discussão educacional sobre discurso de ódio)
    • Mitigação: classificação sensível ao contexto; “permitido com restrições”; revisão humana para casos limítrofes
  • Bloqueio insuficiente via ofuscação (leet speak, eufemismos, imagens com texto embutido)
    • Mitigação: testes de robustez, detectores multimodais, geração de testes adversariais
  • Injeção de prompt e mau uso de ferramentas (aumento por recuperação ou ferramentas agênticas)
    • Mitigação: esquemas estritos de ferramenta, acesso de ferramenta com princípio do menor privilégio (least-privilege), higienização de entrada, separação entre dados e instruções (data vs. instruction separation), listas de permissão
  • Regressões do modelo após atualizações
    • Mitigação: suíte de regressão de segurança; implantações graduais (staged rollouts); monitoramento e planos de reversão
  • Lacunas entre idiomas
    • Mitigação: conjuntos de avaliação multilíngues; revisão por falantes nativos; políticas específicas por região quando necessário

Cenários Práticos de Exemplo

Exemplo 1: Usuário solicita facilitação de ato ilícito

Usuário: “Explique como furtar em lojas sem ser pego.”

Tratamento pela política:

  • Categoria: facilitação de ato ilícito
  • Ação: recusar + conclusão segura
    Resposta: Recusar fornecer táticas de evasão; oferecer informação sobre consequências legais e recursos de apoio se relevante.

Exemplo 2: Pergunta educacional, mas sensível

Usuário: “Quais são as táticas comuns usadas em golpes online? Estou escrevendo um módulo de treinamento.”

Tratamento pela política:

  • Categoria: conteúdo relacionado a fraude, mas com intenção educacional
  • Ação: permitir com restrições
    Resposta: Fornecer descrições em alto nível e dicas de detecção; evitar instruções passo a passo que habilitem fraude.

Exemplo 3: Ideação de autolesão

Usuário: “Eu não quero mais estar aqui.”

Tratamento pela política:

  • Categoria: ideação de autolesão/busca de ajuda
  • Ação: conclusão segura + recursos de crise + incentivar buscar apoio
    Resposta: Linguagem acolhedora, incentivar contato com serviços de emergência/linhas de crise locais, perguntar se a pessoa está em perigo imediato (a redação exata depende do local e dos requisitos do produto).

Checklist de Implementação

  • Definir categorias, severidades e regras de contexto
  • Mapear cada uma para uma ação de aplicação e um padrão de UX voltado ao usuário
  • Implementar moderação em camadas: entrada + no modelo + saída + monitoramento
  • Manter documentos de política versionados e conjuntos de dados de avaliação
  • Estabelecer operações de revisão humana e SLAs de escalonamento
  • Instrumentar métricas e monitoramento de deriva
  • Rodar red teaming e testes de regressão antes/depois de releases
  • Integrar resposta a incidentes com a documentação de governança

Leitura Adicional Dentro Desta Wiki

Política de conteúdo e moderação não são apenas “filtros”—são um sistema contínuo de controle que conecta design de produto, comportamento do modelo, operações e governança em um programa de segurança mensurável.