Política de Conteúdo e Moderação
O que “Política de Conteúdo e Moderação” Significa para Sistemas Generativos
Política de conteúdo define o que um sistema de IA generativa (generative AI) pode produzir, em quais condições e o que ele deve recusar ou transformar. Moderação é o conjunto de mecanismos técnicos e operacionais que fazem a política valer em produção: detecção, roteamento, modelagem da resposta, escalonamento para humanos, registro (logging) e melhoria contínua.
Em plataformas sociais clássicas, a moderação trata principalmente de posts gerados por usuários. Em sistemas generativos, a moderação precisa tratar de ambos:
- Entradas do usuário (prompts (prompts), uploads, chamadas de ferramentas (tool calls), documentos recuperados)
- Saídas do modelo (texto, imagens, código, fala, ações)
Como o modelo é um gerador ativo, sua política precisa lidar com risco composicional (prompts benignos que se tornam prejudiciais quando combinados com contexto) e risco de capacidade (o modelo pode produzir conteúdo convincente em escala).
Este artigo foca em desenhar políticas e operar um programa de moderação que seja auditável, mensurável e compatível com a governança organizacional (veja Avaliações de Risco, Auditorias e Documentação e Framework de Gestão de Risco de IA do NIST).
Por que a Moderação é Diferente para Modelos de Linguagem Grandes e Geradores
Modelos generativos introduzem vários desafios de moderação além da filtragem tradicional de conteúdo:
- Abertura: o espaço de saídas possíveis é enorme; você não consegue enumerar todas as strings proibidas.
- Sensibilidade ao contexto: o mesmo conteúdo pode ser educacional, artístico ou prejudicial dependendo de intenção e público.
- Seguimento de instruções: usuários podem tentar “jailbreaks” para sobrescrever restrições de segurança (uma forma de Aprendizado de Máquina Adversarial).
- Uso de ferramentas e tomada de ação: em sistemas agênticos (agentic systems), a política deve cobrir ações (por exemplo, enviar e-mails, executar código), não apenas texto.
- Multimodalidade (multi-modal): imagens e áudio podem embutir conteúdo proibido ou instruções (por exemplo, texto oculto em imagens).
- Mudança de distribuição e deriva (distribution shift and drift): com o tempo, o comportamento do usuário muda; o modelo pode mudar; o desempenho de segurança pode regredir.
Uma abordagem viável trata a moderação como um sistema sociotécnico (socio-technical system): classificadores (classifiers) + regras + revisão humana + governança + monitoramento contínuo.
Conceitos Centrais e Fundamentos Teóricos
Política como uma “especificação normativa”
Uma política de conteúdo é um documento normativo: ela codifica valores e obrigações (legais, éticas, de marca, de produto). Ela deve ser:
- Clara (não ambígua o suficiente para treinar humanos e implementar sistemas)
- Consistente (casos similares tratados de forma similar)
- Acionável (mapeia para ações de aplicação)
- Testável (pode ser avaliada com conjuntos de dados e métricas)
Taxonomias de dano
A maioria dos programas de moderação define categorias de dano. Categorias comuns para IA generativa incluem:
- Violência e ameaças (incluindo incitação)
- Autolesão e suicídio (incluindo encorajamento; tratamento especial para apoio em crise)
- Ódio e assédio (classes protegidas, insultos, estereótipos degradantes)
- Conteúdo sexual (especialmente menores/CSAM: deve ter tolerância zero e ser reportável)
- Atos ilícitos (instruções para cometer crimes, armas, fraude)
- Privacidade e dados pessoais (doxxing, reidentificação, vazamento de dados sensíveis)
- Aconselhamento médico e jurídico (orientação de alto impacto; exigir avisos e limites seguros)
- Extremismo e radicalização
- Desinformação e engano (personificação, golpes, citações fabricadas)
- Propriedade intelectual/direitos autorais (reprodução literal, ajuda para pirataria)
- Bens regulados (drogas, jogos de azar, tabaco; depende da jurisdição)
Em geral, você ainda rotula cada categoria por severidade, alvo e intenção:
- Severidade: baixa → alta (por exemplo, insulto leve vs. assédio direcionado)
- Alvo: indivíduo vs. grupo
- Intenção: informacional vs. facilitação vs. promoção
Esse enquadramento multi-eixo é crucial porque saídas de modelos de linguagem grandes (LLMs) frequentemente são ambíguas; a política precisa resolver ambiguidade com regras consistentes.
Moderação baseada em risco (não “tamanho único”)
Uma postura prática de moderação é baseada em risco:
- Alguns conteúdos são sempre proibidos (por exemplo, conteúdo sexual envolvendo menores).
- Alguns conteúdos são permitidos com restrições (por exemplo, violência em um resumo histórico).
- Alguns conteúdos são permitidos, mas exigem enquadramento de segurança (por exemplo, ideação de autolesão → recursos de crise e recusa de fornecer instruções).
O pensamento baseado em risco conecta a política aos controles organizacionais descritos no Framework de Gestão de Risco de IA do NIST e aos artefatos operacionais em Cartões do Sistema.
Desenhando uma Política de Conteúdo
Etapa 1: Definir escopo e “área de superfície da política”
Liste o que o sistema consegue fazer:
- Respostas em chat
- Geração de imagens
- Geração de código
- Respostas aumentadas por recuperação (retrieval-augmented answers, RAG)
- Chamadas de ferramentas (e-mail, calendário, banco de dados, pagamentos)
- Memória/personalização
Cada capacidade cria uma área de superfície da política. Por exemplo, chamadas de ferramentas exigem política orientada a ações (“o assistente não deve iniciar uma transferência bancária sem confirmação explícita do usuário”).
Etapa 2: Especificar conteúdo permitido vs. proibido vs. permitido com restrições
Uma estrutura comum de política:
- Proibido: deve recusar, bloquear ou escalar
- Permitido: pode atender normalmente
- Permitido com restrições: atender com proteções (tom, avisos, redação, sem instruções passo a passo)
Exemplo (simplificado):
- Proibido: “Forneça instruções para fazer um explosivo.”
- Permitido com restrições: “Explique a história de explosivos na mineração” (sem instruções procedimentais).
- Permitido: “Resuma regulamentações de segurança em alto nível.”
Etapa 3: Definir ações de aplicação
Ações típicas incluem:
- Permitir (sem intervenção)
- Conclusão segura (safe completion) (responder a uma pergunta adjacente mais segura)
- Recusar (recusa breve + oferecer alternativas)
- Avisar/educar (lembrete da política)
- Redigir (redact) (remover dados pessoais ou trechos proibidos)
- Escalar para revisão humana
- Controles em nível de conta (limitação de taxa (rate limit), bloqueio temporário, banimento)
A política deve mapear explicitamente categorias × severidades × contextos para uma ação.
Etapa 4: Criar exemplos e notas de decisão
Políticas são interpretadas por pessoas e por modelos. Inclua:
- Exemplos positivos (o que é permitido)
- Exemplos negativos (o que é proibido)
- Exemplos “limítrofes” com justificativa
Mantenha exemplos representativos sem reproduzir instruções prejudiciais.
Etapa 5: Documentar em artefatos de governança
Sua política deve ser referenciada (e versionada) em:
- Cartões do Modelo (comportamento e restrições no nível do modelo)
- Cartões do Sistema (comportamento do sistema ponta a ponta)
- Artefatos de Auditorias e Documentação para revisão e rastreabilidade
Arquitetura de Moderação: Onde a Aplicação Acontece
Um sistema robusto usa múltiplas camadas:
1) Moderação de entrada (antes do modelo)
Objetivos:
- Bloquear solicitações proibidas cedo
- Detectar contexto de alto risco e rotear para fluxos mais seguros
- Reduzir exposição a prompts de jailbreak e injeção de prompt (prompt injection)
Métodos:
- Classificadores de texto/imagem
- Verificações por padrão/regra (PII, insultos, frases de autolesão)
- Classificação de “intenção” (busca de ajuda vs. malicioso)
- Limitação de taxa e detecção de abuso
Exemplo:
- Se a entrada for “Me diga como arrombar um carro”, bloquear ou recusar.
- Se a entrada for “Eu sinto vontade de me machucar”, rotear para um fluxo de resposta seguro para crise.
2) Segurança no modelo (durante a geração)
Isso inclui:
- Ajuste fino de segurança (safety fine-tuning) (por exemplo, ajuste por instruções (instruction tuning), Aprendizado por Reforço a partir de Feedback Humano)
- Prompts de sistema (system prompts) / regras constitucionais (constitutional rules)
- Restrições no momento de decodificação (decoding-time constraints) (menos comum, mas possível)
- Restrições de uso de ferramentas (lista de permissão (allowlist) de ferramentas e esquemas)
Limitação importante: você não deve depender apenas de prompts para aplicação; prompts não são uma fronteira de segurança.
3) Moderação de saída (depois do modelo)
Escaneie o conteúdo gerado antes de ele chegar ao usuário:
- Classificar a saída para violações da política
- Redigir ou reescrever partes proibidas
- Acionar recusas ou escalonamento humano
A moderação de saída é essencial porque até prompts benignos podem gerar saídas problemáticas.
4) Monitoramento pós-hoc (após a entrega)
- Denúncias e apelações de usuários
- Registro automatizado e detecção de anomalias
- Auditorias periódicas e red teaming
- Testes de regressão contra falhas conhecidas
Isso se conecta diretamente a Relato de Incidentes e Transparência.
Um Pipeline Prático de Moderação (Exemplo)
Abaixo está uma arquitetura simplificada mostrando como equipes costumam conectar a aplicação em uma pilha de modelos de linguagem grandes em produção (LLM stack).
def handle_request(user_id, user_text, attachments=None):
# 1) Input checks
input_result = moderate_input(user_text, attachments)
if input_result.action == "BLOCK":
return refusal(input_result.reason, safe_alternatives=True)
if input_result.action == "ESCALATE":
ticket_id = create_human_review_ticket(user_id, user_text, attachments)
return pending_review_message(ticket_id)
# 2) Generate
draft = llm_generate(
system_prompt=policy_system_prompt(),
user_text=user_text,
tools=tool_allowlist_for_user(user_id),
safety_tags=input_result.tags,
)
# 3) Output checks
output_result = moderate_output(draft)
if output_result.action == "ALLOW":
return draft
if output_result.action == "REDACT":
return redact(draft, output_result.spans)
if output_result.action == "SAFE_COMPLETE":
return safe_completion(user_text, output_result.reason)
if output_result.action == "REFUSE":
return refusal(output_result.reason, safe_alternatives=True)
# 4) Fallback: conservative behavior
return refusal("I can’t help with that request.", safe_alternatives=True)
Ideia operacional chave: a moderação retorna uma ação, não apenas um rótulo.
Técnicas Usadas em Sistemas de Moderação
Classificadores (modelos pequenos ou detectores especializados)
Prós:
- Rápidos, escaláveis, consistentes
- Fáceis de definir limiares e monitorar
Contras:
- Falsos positivos/negativos
- Dificuldade com contexto nuançado e conteúdo multilíngue
Boas práticas:
- Manter limiares por categoria (ódio vs. autolesão frequentemente precisam de pontos de operação diferentes)
- Acompanhar desempenho por idioma, região e segmento de usuário
- Calibrar pontuações (especialmente se usadas para bloqueio automatizado)
Regras e heurísticas
Úteis para:
- Padrões de PII (e-mails, números de telefone, CPFs)
- Listas conhecidas de insultos (com tratamento cuidadoso para evitar bloqueio excessivo em contextos de ressignificação)
- Listas de bloqueio (blocklists) de URL/domínio
- Regras de permitir/negar chamadas de ferramentas
Regras são frágeis sozinhas, mas eficazes como parte de uma abordagem em camadas.
LLM como juiz (LLM-as-a-judge) (moderação baseada em modelo)
Você pode usar um modelo de linguagem grande para classificar conteúdo em relação ao texto da política.
Prós:
- Lida melhor com nuance e contexto
- Pode fornecer justificativas (útil para trilhas de auditoria)
Contras:
- Maior latência/custo
- Pode ser inconsistente, sensível a prompt e vulnerável a formulações adversariais
- Deve ser avaliado com cuidado (não assuma que está “correto”)
Um padrão pragmático é a moderação híbrida (hybrid moderation):
- Usar classificadores rápidos para a maior parte do tráfego
- Usar julgamento por modelo de linguagem grande para casos limítrofes ou para gerar justificativas estruturadas para revisão humana
Revisão humana no loop (human-in-the-loop)
Humanos são essenciais para:
- Apelações e disputas
- Categorias de alta severidade
- Desenvolvimento de política e casos extremos
- Rotulagem contínua para conjuntos de dados de avaliação
Considerações operacionais:
- Treinamento de moderadores, garantia de qualidade e bem-estar (exposição a conteúdo perturbador)
- Caminhos claros de escalonamento e SLAs de resposta
- Conhecimento por jurisdição (normas legais/médicas/regionais)
Tratando Categorias Especiais e de Alto Impacto
Autolesão
Sistemas devem distinguir:
- Ideação/busca de ajuda (“Quero me machucar”) → resposta de apoio, incentivar ajuda profissional, recursos de crise
- Busca por instruções (“Como eu…”) → recusar orientação procedimental, fornecer recursos de segurança
Uma boa política define um playbook de resposta a crise e garante comportamento consistente.
Aconselhamento médico, jurídico e financeiro
As abordagens variam por produto, mas salvaguardas comuns:
- Incentivar consulta profissional para diagnóstico/questões urgentes
- Evitar prescrever substâncias controladas ou táticas jurídicas específicas
- Fornecer informação geral e fazer perguntas de esclarecimento
- Usar avisos sem fingir que avisos por si só resolvem o risco
Privacidade e dados pessoais
A moderação deve cobrir:
- Pedidos de doxxing (“me dê o endereço dela”)
- Tentativas de reidentificação
- Coleta proibida de dados sensíveis
- Vazamento acidental via memória ou logs
Também garanta que seus registros e análises estejam em conformidade com requisitos de privacidade (veja LGPD (Brasil) para Sistemas de IA quando aplicável).
Política Encontra Produto: Padrões de UX que Melhoram a Segurança
A moderação é mais eficaz quando a UI ajuda usuários a permanecerem dentro de limites seguros:
- Recusa com alternativas: redirecionar para objetivos permitidos (“Não posso ajudar com isso, mas posso explicar a lei em alto nível.”)
- Formulários de entrada estruturados: restringir solicitações de alto risco (por exemplo, triagem de sintomas médicos com proteções)
- Confirmações para ações: confirmação explícita antes da execução de ferramenta
- Sinais de transparência: “Isto é informação geral, não aconselhamento profissional” quando apropriado
- Denúncia do usuário: denúncia fácil de saídas inseguras e ciclos de feedback
Medindo a Qualidade da Moderação
Você não consegue melhorar o que não mede. Métricas comuns:
Avaliação offline (conjuntos de teste)
- Precisão/recall (precision/recall) por categoria
- Taxa de falso positivo (false positive rate, FPR) em conteúdo benigno
- Taxa de falso negativo (false negative rate, FNR) em conteúdo proibido
- Robustez a paráfrases, variantes multilíngues e ofuscação
Avaliação online (produção)
- Taxa de violação (estimada) ao longo do tempo
- Taxa de denúncia do usuário e resultados de apelação
- Sobrecarga de latência
- Taxa de “recusa excessiva” (usuários bloqueados em usos legítimos)
- Monitoramento de deriva (mudanças após atualizações de modelo ou política)
Conjuntos de dados dourados (golden datasets): mantenha conjuntos de avaliação curados e versionados vinculados às versões de política. Trate isso de forma similar a uma suíte de regressão (regression suite) em engenharia de software.
Governança Operacional: Rodando a Moderação como um Programa
Papéis e responsabilidades
Programas eficazes definem uma estrutura tipo RACI:
- Dono da política (frequentemente Trust & Safety / Jurídico / Produto)
- Dono de engenharia (implementação, monitoramento, ferramentas)
- Dono de dados/ML (classificadores, avaliação, calibração)
- Operações humanas (equipes de revisão, QA)
- Partes interessadas de segurança e privacidade (registro, abuso, resposta a incidentes)
Gestão de mudanças
Políticas evoluem. Toda mudança de política deve ter:
- Um número de versão e data de vigência
- Justificativa e vinculação a avaliação de risco (veja Avaliações de Risco)
- Testes atualizados e resultados de avaliação
- Plano de comunicação (interno + possivelmente externo)
Prontidão para auditoria
Auditores frequentemente querem ver:
- Documentos de política e mapeamentos para aplicação
- Evidência de testes e monitoramento
- Logs de incidentes e ações corretivas
- Materiais de treinamento para revisores
- Documentação em nível de sistema (veja Auditorias e Documentação)
Resposta a Incidentes e Transparência
Quando a moderação falha (e vai falhar), você precisa de um caminho claro:
- Triar severidade (dano ao usuário, exposição legal, escala)
- Conter (regras de correção rápida (hotfix), limitar funcionalidades, reversão (rollback) do modelo)
- Investigar (padrões de prompt, deriva de classificador, vetores de jailbreak)
- Remediar (atualização de política, atualização de modelo, novos testes)
- Comunicar apropriadamente (veja Relato de Incidentes e Transparência)
Uma equipe madura trata incidentes como oportunidades de aprendizado e os incorpora em testes de regressão.
Modos de Falha Comuns (e Como Mitigá-los)
- Bloqueio excessivo de conteúdo benigno (por exemplo, discussão educacional sobre discurso de ódio)
- Mitigação: classificação sensível ao contexto; “permitido com restrições”; revisão humana para casos limítrofes
- Bloqueio insuficiente via ofuscação (leet speak, eufemismos, imagens com texto embutido)
- Mitigação: testes de robustez, detectores multimodais, geração de testes adversariais
- Injeção de prompt e mau uso de ferramentas (aumento por recuperação ou ferramentas agênticas)
- Mitigação: esquemas estritos de ferramenta, acesso de ferramenta com princípio do menor privilégio (least-privilege), higienização de entrada, separação entre dados e instruções (data vs. instruction separation), listas de permissão
- Regressões do modelo após atualizações
- Mitigação: suíte de regressão de segurança; implantações graduais (staged rollouts); monitoramento e planos de reversão
- Lacunas entre idiomas
- Mitigação: conjuntos de avaliação multilíngues; revisão por falantes nativos; políticas específicas por região quando necessário
Cenários Práticos de Exemplo
Exemplo 1: Usuário solicita facilitação de ato ilícito
Usuário: “Explique como furtar em lojas sem ser pego.”
Tratamento pela política:
- Categoria: facilitação de ato ilícito
- Ação: recusar + conclusão segura
Resposta: Recusar fornecer táticas de evasão; oferecer informação sobre consequências legais e recursos de apoio se relevante.
Exemplo 2: Pergunta educacional, mas sensível
Usuário: “Quais são as táticas comuns usadas em golpes online? Estou escrevendo um módulo de treinamento.”
Tratamento pela política:
- Categoria: conteúdo relacionado a fraude, mas com intenção educacional
- Ação: permitir com restrições
Resposta: Fornecer descrições em alto nível e dicas de detecção; evitar instruções passo a passo que habilitem fraude.
Exemplo 3: Ideação de autolesão
Usuário: “Eu não quero mais estar aqui.”
Tratamento pela política:
- Categoria: ideação de autolesão/busca de ajuda
- Ação: conclusão segura + recursos de crise + incentivar buscar apoio
Resposta: Linguagem acolhedora, incentivar contato com serviços de emergência/linhas de crise locais, perguntar se a pessoa está em perigo imediato (a redação exata depende do local e dos requisitos do produto).
Checklist de Implementação
- Definir categorias, severidades e regras de contexto
- Mapear cada uma para uma ação de aplicação e um padrão de UX voltado ao usuário
- Implementar moderação em camadas: entrada + no modelo + saída + monitoramento
- Manter documentos de política versionados e conjuntos de dados de avaliação
- Estabelecer operações de revisão humana e SLAs de escalonamento
- Instrumentar métricas e monitoramento de deriva
- Rodar red teaming e testes de regressão antes/depois de releases
- Integrar resposta a incidentes com a documentação de governança
Leitura Adicional Dentro Desta Wiki
- Avaliações de Risco para identificar e priorizar danos
- Framework de Gestão de Risco de IA do NIST para mapear riscos para controles
- Auditorias e Documentação para evidências e rastreabilidade
- Cartões do Sistema e Cartões do Modelo para documentar uso pretendido e limitações
- Relato de Incidentes e Transparência para lidar com falhas e comunicá-las
Política de conteúdo e moderação não são apenas “filtros”—são um sistema contínuo de controle que conecta design de produto, comportamento do modelo, operações e governança em um programa de segurança mensurável.