Política de Conteúdo e Moderação

O que “Política de Conteúdo e Moderação” Significa para Sistemas Generativos

Política de conteúdo define o que um sistema de IA generativa (generative AI) pode produzir, em quais condições e o que ele deve recusar ou transformar. Moderação é o conjunto de mecanismos técnicos e operacionais que fazem a política valer em produção: detecção, roteamento, modelagem da resposta, escalonamento para humanos, registro (logging) e melhoria contínua.

Em plataformas sociais clássicas, a moderação trata principalmente de posts gerados por usuários. Em sistemas generativos, a moderação precisa tratar de ambos:

Entradas do usuário (prompts (prompts), uploads, chamadas de ferramentas (tool calls), documentos recuperados)
Saídas do modelo (texto, imagens, código, fala, ações)

Como o modelo é um gerador ativo, sua política precisa lidar com risco composicional (prompts benignos que se tornam prejudiciais quando combinados com contexto) e risco de capacidade (o modelo pode produzir conteúdo convincente em escala).

Este artigo foca em desenhar políticas e operar um programa de moderação que seja auditável, mensurável e compatível com a governança organizacional (veja Avaliações de Risco, Auditorias e Documentação e Framework de Gestão de Risco de IA do NIST).

Por que a Moderação é Diferente para Modelos de Linguagem Grandes e Geradores

Modelos generativos introduzem vários desafios de moderação além da filtragem tradicional de conteúdo:

Abertura: o espaço de saídas possíveis é enorme; você não consegue enumerar todas as strings proibidas.
Sensibilidade ao contexto: o mesmo conteúdo pode ser educacional, artístico ou prejudicial dependendo de intenção e público.
Seguimento de instruções: usuários podem tentar “jailbreaks” para sobrescrever restrições de segurança (uma forma de Aprendizado de Máquina Adversarial).
Uso de ferramentas e tomada de ação: em sistemas agênticos (agentic systems), a política deve cobrir ações (por exemplo, enviar e-mails, executar código), não apenas texto.
Multimodalidade (multi-modal): imagens e áudio podem embutir conteúdo proibido ou instruções (por exemplo, texto oculto em imagens).
Mudança de distribuição e deriva (distribution shift and drift): com o tempo, o comportamento do usuário muda; o modelo pode mudar; o desempenho de segurança pode regredir.

Uma abordagem viável trata a moderação como um sistema sociotécnico (socio-technical system): classificadores (classifiers) + regras + revisão humana + governança + monitoramento contínuo.

Conceitos Centrais e Fundamentos Teóricos

Política como uma “especificação normativa”

Uma política de conteúdo é um documento normativo: ela codifica valores e obrigações (legais, éticas, de marca, de produto). Ela deve ser:

Clara (não ambígua o suficiente para treinar humanos e implementar sistemas)
Consistente (casos similares tratados de forma similar)
Acionável (mapeia para ações de aplicação)
Testável (pode ser avaliada com conjuntos de dados e métricas)

Taxonomias de dano

A maioria dos programas de moderação define categorias de dano. Categorias comuns para IA generativa incluem:

Violência e ameaças (incluindo incitação)
Autolesão e suicídio (incluindo encorajamento; tratamento especial para apoio em crise)
Ódio e assédio (classes protegidas, insultos, estereótipos degradantes)
Conteúdo sexual (especialmente menores/CSAM: deve ter tolerância zero e ser reportável)
Atos ilícitos (instruções para cometer crimes, armas, fraude)
Privacidade e dados pessoais (doxxing, reidentificação, vazamento de dados sensíveis)
Aconselhamento médico e jurídico (orientação de alto impacto; exigir avisos e limites seguros)
Extremismo e radicalização
Desinformação e engano (personificação, golpes, citações fabricadas)
Propriedade intelectual/direitos autorais (reprodução literal, ajuda para pirataria)
Bens regulados (drogas, jogos de azar, tabaco; depende da jurisdição)

Em geral, você ainda rotula cada categoria por severidade, alvo e intenção:

Severidade: baixa → alta (por exemplo, insulto leve vs. assédio direcionado)
Alvo: indivíduo vs. grupo
Intenção: informacional vs. facilitação vs. promoção

Esse enquadramento multi-eixo é crucial porque saídas de modelos de linguagem grandes (LLMs) frequentemente são ambíguas; a política precisa resolver ambiguidade com regras consistentes.

Moderação baseada em risco (não “tamanho único”)

Uma postura prática de moderação é baseada em risco:

Alguns conteúdos são sempre proibidos (por exemplo, conteúdo sexual envolvendo menores).
Alguns conteúdos são permitidos com restrições (por exemplo, violência em um resumo histórico).
Alguns conteúdos são permitidos, mas exigem enquadramento de segurança (por exemplo, ideação de autolesão → recursos de crise e recusa de fornecer instruções).

O pensamento baseado em risco conecta a política aos controles organizacionais descritos no Framework de Gestão de Risco de IA do NIST e aos artefatos operacionais em Cartões do Sistema.

Desenhando uma Política de Conteúdo

Etapa 1: Definir escopo e “área de superfície da política”

Liste o que o sistema consegue fazer:

Respostas em chat
Geração de imagens
Geração de código
Respostas aumentadas por recuperação (retrieval-augmented answers, RAG)
Chamadas de ferramentas (e-mail, calendário, banco de dados, pagamentos)
Memória/personalização

Cada capacidade cria uma área de superfície da política. Por exemplo, chamadas de ferramentas exigem política orientada a ações (“o assistente não deve iniciar uma transferência bancária sem confirmação explícita do usuário”).

Etapa 2: Especificar conteúdo permitido vs. proibido vs. permitido com restrições

Uma estrutura comum de política:

Proibido: deve recusar, bloquear ou escalar
Permitido: pode atender normalmente
Permitido com restrições: atender com proteções (tom, avisos, redação, sem instruções passo a passo)

Exemplo (simplificado):

Proibido: “Forneça instruções para fazer um explosivo.”
Permitido com restrições: “Explique a história de explosivos na mineração” (sem instruções procedimentais).
Permitido: “Resuma regulamentações de segurança em alto nível.”

Etapa 3: Definir ações de aplicação

Ações típicas incluem:

Permitir (sem intervenção)
Conclusão segura (safe completion) (responder a uma pergunta adjacente mais segura)
Recusar (recusa breve + oferecer alternativas)
Avisar/educar (lembrete da política)
Redigir (redact) (remover dados pessoais ou trechos proibidos)
Escalar para revisão humana
Controles em nível de conta (limitação de taxa (rate limit), bloqueio temporário, banimento)

A política deve mapear explicitamente categorias × severidades × contextos para uma ação.

Etapa 4: Criar exemplos e notas de decisão

Políticas são interpretadas por pessoas e por modelos. Inclua:

Exemplos positivos (o que é permitido)
Exemplos negativos (o que é proibido)
Exemplos “limítrofes” com justificativa

Mantenha exemplos representativos sem reproduzir instruções prejudiciais.

Etapa 5: Documentar em artefatos de governança

Sua política deve ser referenciada (e versionada) em:

Cartões do Modelo (comportamento e restrições no nível do modelo)
Cartões do Sistema (comportamento do sistema ponta a ponta)
Artefatos de Auditorias e Documentação para revisão e rastreabilidade

Arquitetura de Moderação: Onde a Aplicação Acontece

Um sistema robusto usa múltiplas camadas:

1) Moderação de entrada (antes do modelo)

Objetivos:

Bloquear solicitações proibidas cedo
Detectar contexto de alto risco e rotear para fluxos mais seguros
Reduzir exposição a prompts de jailbreak e injeção de prompt (prompt injection)

Métodos:

Classificadores de texto/imagem
Verificações por padrão/regra (PII, insultos, frases de autolesão)
Classificação de “intenção” (busca de ajuda vs. malicioso)
Limitação de taxa e detecção de abuso

Exemplo:

Se a entrada for “Me diga como arrombar um carro”, bloquear ou recusar.
Se a entrada for “Eu sinto vontade de me machucar”, rotear para um fluxo de resposta seguro para crise.

2) Segurança no modelo (durante a geração)

Isso inclui:

Ajuste fino de segurança (safety fine-tuning) (por exemplo, ajuste por instruções (instruction tuning), Aprendizado por Reforço a partir de Feedback Humano)
Prompts de sistema (system prompts) / regras constitucionais (constitutional rules)
Restrições no momento de decodificação (decoding-time constraints) (menos comum, mas possível)
Restrições de uso de ferramentas (lista de permissão (allowlist) de ferramentas e esquemas)

Limitação importante: você não deve depender apenas de prompts para aplicação; prompts não são uma fronteira de segurança.

3) Moderação de saída (depois do modelo)

Escaneie o conteúdo gerado antes de ele chegar ao usuário:

Classificar a saída para violações da política
Redigir ou reescrever partes proibidas
Acionar recusas ou escalonamento humano

A moderação de saída é essencial porque até prompts benignos podem gerar saídas problemáticas.

4) Monitoramento pós-hoc (após a entrega)

Denúncias e apelações de usuários
Registro automatizado e detecção de anomalias
Auditorias periódicas e red teaming
Testes de regressão contra falhas conhecidas

Isso se conecta diretamente a Relato de Incidentes e Transparência.

Um Pipeline Prático de Moderação (Exemplo)

Abaixo está uma arquitetura simplificada mostrando como equipes costumam conectar a aplicação em uma pilha de modelos de linguagem grandes em produção (LLM stack).

def handle_request(user_id, user_text, attachments=None):
    # 1) Input checks
    input_result = moderate_input(user_text, attachments)
    if input_result.action == "BLOCK":
        return refusal(input_result.reason, safe_alternatives=True)

    if input_result.action == "ESCALATE":
        ticket_id = create_human_review_ticket(user_id, user_text, attachments)
        return pending_review_message(ticket_id)

    # 2) Generate
    draft = llm_generate(
        system_prompt=policy_system_prompt(),
        user_text=user_text,
        tools=tool_allowlist_for_user(user_id),
        safety_tags=input_result.tags,
    )

    # 3) Output checks
    output_result = moderate_output(draft)
    if output_result.action == "ALLOW":
        return draft

    if output_result.action == "REDACT":
        return redact(draft, output_result.spans)

    if output_result.action == "SAFE_COMPLETE":
        return safe_completion(user_text, output_result.reason)

    if output_result.action == "REFUSE":
        return refusal(output_result.reason, safe_alternatives=True)

    # 4) Fallback: conservative behavior
    return refusal("I can’t help with that request.", safe_alternatives=True)

Ideia operacional chave: a moderação retorna uma ação, não apenas um rótulo.

Técnicas Usadas em Sistemas de Moderação

Classificadores (modelos pequenos ou detectores especializados)

Prós:

Rápidos, escaláveis, consistentes
Fáceis de definir limiares e monitorar

Contras:

Falsos positivos/negativos
Dificuldade com contexto nuançado e conteúdo multilíngue

Boas práticas:

Manter limiares por categoria (ódio vs. autolesão frequentemente precisam de pontos de operação diferentes)
Acompanhar desempenho por idioma, região e segmento de usuário
Calibrar pontuações (especialmente se usadas para bloqueio automatizado)

Regras e heurísticas

Úteis para:

Padrões de PII (e-mails, números de telefone, CPFs)
Listas conhecidas de insultos (com tratamento cuidadoso para evitar bloqueio excessivo em contextos de ressignificação)
Listas de bloqueio (blocklists) de URL/domínio
Regras de permitir/negar chamadas de ferramentas

Regras são frágeis sozinhas, mas eficazes como parte de uma abordagem em camadas.

LLM como juiz (LLM-as-a-judge) (moderação baseada em modelo)

Você pode usar um modelo de linguagem grande para classificar conteúdo em relação ao texto da política.

Prós:

Lida melhor com nuance e contexto
Pode fornecer justificativas (útil para trilhas de auditoria)

Contras:

Maior latência/custo
Pode ser inconsistente, sensível a prompt e vulnerável a formulações adversariais
Deve ser avaliado com cuidado (não assuma que está “correto”)

Um padrão pragmático é a moderação híbrida (hybrid moderation):

Usar classificadores rápidos para a maior parte do tráfego
Usar julgamento por modelo de linguagem grande para casos limítrofes ou para gerar justificativas estruturadas para revisão humana

Revisão humana no loop (human-in-the-loop)

Humanos são essenciais para:

Apelações e disputas
Categorias de alta severidade
Desenvolvimento de política e casos extremos
Rotulagem contínua para conjuntos de dados de avaliação

Considerações operacionais:

Treinamento de moderadores, garantia de qualidade e bem-estar (exposição a conteúdo perturbador)
Caminhos claros de escalonamento e SLAs de resposta
Conhecimento por jurisdição (normas legais/médicas/regionais)

Tratando Categorias Especiais e de Alto Impacto

Autolesão

Sistemas devem distinguir:

Ideação/busca de ajuda (“Quero me machucar”) → resposta de apoio, incentivar ajuda profissional, recursos de crise
Busca por instruções (“Como eu…”) → recusar orientação procedimental, fornecer recursos de segurança

Uma boa política define um playbook de resposta a crise e garante comportamento consistente.

Aconselhamento médico, jurídico e financeiro

As abordagens variam por produto, mas salvaguardas comuns:

Incentivar consulta profissional para diagnóstico/questões urgentes
Evitar prescrever substâncias controladas ou táticas jurídicas específicas
Fornecer informação geral e fazer perguntas de esclarecimento
Usar avisos sem fingir que avisos por si só resolvem o risco

Privacidade e dados pessoais

A moderação deve cobrir:

Pedidos de doxxing (“me dê o endereço dela”)
Tentativas de reidentificação
Coleta proibida de dados sensíveis
Vazamento acidental via memória ou logs

Também garanta que seus registros e análises estejam em conformidade com requisitos de privacidade (veja LGPD (Brasil) para Sistemas de IA quando aplicável).

Política Encontra Produto: Padrões de UX que Melhoram a Segurança

A moderação é mais eficaz quando a UI ajuda usuários a permanecerem dentro de limites seguros:

Recusa com alternativas: redirecionar para objetivos permitidos (“Não posso ajudar com isso, mas posso explicar a lei em alto nível.”)
Formulários de entrada estruturados: restringir solicitações de alto risco (por exemplo, triagem de sintomas médicos com proteções)
Confirmações para ações: confirmação explícita antes da execução de ferramenta
Sinais de transparência: “Isto é informação geral, não aconselhamento profissional” quando apropriado
Denúncia do usuário: denúncia fácil de saídas inseguras e ciclos de feedback

Medindo a Qualidade da Moderação

Você não consegue melhorar o que não mede. Métricas comuns:

Avaliação offline (conjuntos de teste)

Precisão/recall (precision/recall) por categoria
Taxa de falso positivo (false positive rate, FPR) em conteúdo benigno
Taxa de falso negativo (false negative rate, FNR) em conteúdo proibido
Robustez a paráfrases, variantes multilíngues e ofuscação

Avaliação online (produção)

Taxa de violação (estimada) ao longo do tempo
Taxa de denúncia do usuário e resultados de apelação
Sobrecarga de latência
Taxa de “recusa excessiva” (usuários bloqueados em usos legítimos)
Monitoramento de deriva (mudanças após atualizações de modelo ou política)

Conjuntos de dados dourados (golden datasets): mantenha conjuntos de avaliação curados e versionados vinculados às versões de política. Trate isso de forma similar a uma suíte de regressão (regression suite) em engenharia de software.

Governança Operacional: Rodando a Moderação como um Programa

Papéis e responsabilidades

Programas eficazes definem uma estrutura tipo RACI:

Dono da política (frequentemente Trust & Safety / Jurídico / Produto)
Dono de engenharia (implementação, monitoramento, ferramentas)
Dono de dados/ML (classificadores, avaliação, calibração)
Operações humanas (equipes de revisão, QA)
Partes interessadas de segurança e privacidade (registro, abuso, resposta a incidentes)

Gestão de mudanças

Políticas evoluem. Toda mudança de política deve ter:

Um número de versão e data de vigência
Justificativa e vinculação a avaliação de risco (veja Avaliações de Risco)
Testes atualizados e resultados de avaliação
Plano de comunicação (interno + possivelmente externo)

Prontidão para auditoria

Auditores frequentemente querem ver:

Documentos de política e mapeamentos para aplicação
Evidência de testes e monitoramento
Logs de incidentes e ações corretivas
Materiais de treinamento para revisores
Documentação em nível de sistema (veja Auditorias e Documentação)

Resposta a Incidentes e Transparência

Quando a moderação falha (e vai falhar), você precisa de um caminho claro:

Triar severidade (dano ao usuário, exposição legal, escala)
Conter (regras de correção rápida (hotfix), limitar funcionalidades, reversão (rollback) do modelo)
Investigar (padrões de prompt, deriva de classificador, vetores de jailbreak)
Remediar (atualização de política, atualização de modelo, novos testes)
Comunicar apropriadamente (veja Relato de Incidentes e Transparência)

Uma equipe madura trata incidentes como oportunidades de aprendizado e os incorpora em testes de regressão.

Modos de Falha Comuns (e Como Mitigá-los)

Bloqueio excessivo de conteúdo benigno (por exemplo, discussão educacional sobre discurso de ódio)
- Mitigação: classificação sensível ao contexto; “permitido com restrições”; revisão humana para casos limítrofes
Bloqueio insuficiente via ofuscação (leet speak, eufemismos, imagens com texto embutido)
- Mitigação: testes de robustez, detectores multimodais, geração de testes adversariais
Injeção de prompt e mau uso de ferramentas (aumento por recuperação ou ferramentas agênticas)
- Mitigação: esquemas estritos de ferramenta, acesso de ferramenta com princípio do menor privilégio (least-privilege), higienização de entrada, separação entre dados e instruções (data vs. instruction separation), listas de permissão
Regressões do modelo após atualizações
- Mitigação: suíte de regressão de segurança; implantações graduais (staged rollouts); monitoramento e planos de reversão
Lacunas entre idiomas
- Mitigação: conjuntos de avaliação multilíngues; revisão por falantes nativos; políticas específicas por região quando necessário

Cenários Práticos de Exemplo

Exemplo 1: Usuário solicita facilitação de ato ilícito

Usuário: “Explique como furtar em lojas sem ser pego.”

Tratamento pela política:

Categoria: facilitação de ato ilícito
Ação: recusar + conclusão segura
Resposta: Recusar fornecer táticas de evasão; oferecer informação sobre consequências legais e recursos de apoio se relevante.

Exemplo 2: Pergunta educacional, mas sensível

Usuário: “Quais são as táticas comuns usadas em golpes online? Estou escrevendo um módulo de treinamento.”

Tratamento pela política:

Categoria: conteúdo relacionado a fraude, mas com intenção educacional
Ação: permitir com restrições
Resposta: Fornecer descrições em alto nível e dicas de detecção; evitar instruções passo a passo que habilitem fraude.

Exemplo 3: Ideação de autolesão

Usuário: “Eu não quero mais estar aqui.”

Tratamento pela política:

Categoria: ideação de autolesão/busca de ajuda
Ação: conclusão segura + recursos de crise + incentivar buscar apoio
Resposta: Linguagem acolhedora, incentivar contato com serviços de emergência/linhas de crise locais, perguntar se a pessoa está em perigo imediato (a redação exata depende do local e dos requisitos do produto).

Checklist de Implementação

Definir categorias, severidades e regras de contexto
Mapear cada uma para uma ação de aplicação e um padrão de UX voltado ao usuário
Implementar moderação em camadas: entrada + no modelo + saída + monitoramento
Manter documentos de política versionados e conjuntos de dados de avaliação
Estabelecer operações de revisão humana e SLAs de escalonamento
Instrumentar métricas e monitoramento de deriva
Rodar red teaming e testes de regressão antes/depois de releases
Integrar resposta a incidentes com a documentação de governança

Leitura Adicional Dentro Desta Wiki

Avaliações de Risco para identificar e priorizar danos
Framework de Gestão de Risco de IA do NIST para mapear riscos para controles
Auditorias e Documentação para evidências e rastreabilidade
Cartões do Sistema e Cartões do Modelo para documentar uso pretendido e limitações
Relato de Incidentes e Transparência para lidar com falhas e comunicá-las

Política de conteúdo e moderação não são apenas “filtros”—são um sistema contínuo de controle que conecta design de produto, comportamento do modelo, operações e governança em um programa de segurança mensurável.