IA Constitucional (Constitutional AI)

IA Constitucional (Constitutional AI) é uma abordagem de alinhamento para treinar e operar sistemas de IA — especialmente Modelos de Linguagem Grandes — que usa um conjunto explícito de princípios escritos (uma “constituição”) para moldar o comportamento do modelo por meio de autocrítica e revisão guiadas por regras. Em vez de depender apenas de grandes volumes de rótulos de preferência escritos por humanos (como no clássico Aprendizado por Reforço a partir de Feedback Humano), a IA Constitucional busca tornar o modelo e seu processo de treinamento mais escaláveis, auditáveis e orientados por políticas ao:

Codificar o comportamento desejado em um conjunto de regras legível por humanos (por exemplo, “não forneça instruções para cometer ilícitos”, “seja honesto sobre incerteza”, “evite estereótipos injustos”).
Usar autocrítica assistida por IA para identificar violações dessas regras.
Gerar respostas aprimoradas (e às vezes comparações de preferência) que podem ser usadas para treinar ainda mais o modelo.

Este artigo fornece uma visão de alto nível da IA Constitucional como moldagem de preferências baseada em regras + autocrítica: como funciona, por que é usada, exemplos práticos e limitações.

Por que a IA Constitucional existe (e onde ela se encaixa no alinhamento)

Modelos de linguagem modernos são treinados para prever texto, não para serem seguros ou alinhados. Após o pré-treinamento, as equipes normalmente aplicam métodos de alinhamento para otimizar um conjunto de objetivos como:

Utilidade (resolver o problema do usuário),
Inocuidade (evitar causar dano),
Honestidade (não inventar; admitir incerteza).

Essas compensações (tradeoffs) são discutidas em Enquadramento do Problema.

Um fluxo de trabalho comum de alinhamento é o RLHF: humanos classificam saídas do modelo; um modelo de recompensa aprende essas preferências; então o modelo é otimizado em relação a essa recompensa (por exemplo, usando Otimização Proximal de Política). O RLHF funciona bem, mas tem desvantagens:

Custo e velocidade: dados de preferência humana de alta qualidade são caros e lentos de coletar.
Inconsistência: diferentes anotadores interpretam políticas de maneiras diferentes.
Opacidade: “o modelo de recompensa quer X” é mais difícil de auditar do que “a política diz X”.
Lacunas de cobertura: modos de falha raros, porém severos, podem não aparecer nos dados de treinamento.

A IA Constitucional aborda essas questões ao tornar a orientação normativa mais explícita e reutilizável (a constituição) e ao usar crítica dirigida pelo modelo para produzir sinais de treinamento em escala. Ela não elimina a necessidade de humanos; em vez disso, desloca o esforço humano para escrever e manter princípios, auditar saídas e construir uma narrativa defensável — muitas vezes formalizada em Casos de Segurança.

Ideia central: uma constituição + autocrítica

O que “constituição” significa na IA Constitucional

Uma constituição é um conjunto escrito de princípios que o sistema é treinado (e/ou instruído via prompt) a seguir. Ela pode ser:

De alto nível: “Evite conteúdo que facilite ilícitos graves.”
Procedimental: “Se o usuário solicitar instruções prejudiciais, recuse e ofereça alternativas seguras.”
Baseada em valores: “Respeite a autonomia, previna danos, trate as pessoas de forma justa.”
Derivada de políticas: a partir de leis, políticas de plataforma, diretrizes médicas ou padrões organizacionais de risco.

As constituições geralmente são expressas em linguagem natural por dois motivos:

Elas são editáveis por humanos (equipes de produto, política, jurídico, segurança).
Elas podem ser usadas diretamente em prompts para crítica e revisão.

Uma constituição frequentemente inclui:

Comportamentos proibidos (por exemplo, instruções de autoagressão).
Comportamentos obrigatórios (por exemplo, explicitar incerteza; fazer perguntas de esclarecimento).
Regras de prioridade para conflitos (por exemplo, “Segurança substitui completude.”).
Diretrizes de resposta (estilo de recusa, alternativas seguras, linguagem de desescalada).

O que “autocrítica” significa

Autocrítica é um processo em que o modelo (ou um modelo “crítico” separado) examina um rascunho de resposta e identifica problemas com respeito à constituição. Normalmente, ele executa:

Crítica: Quais princípios são violados ou estão em risco?
Revisão: Produzir uma resposta corrigida que satisfaça melhor os princípios.

Esse ciclo de criticar-e-revisar pode ser usado:

No tempo de treinamento para gerar dados de preferência ou alvos supervisionados.
No tempo de inferência para pós-processar respostas (uma forma de “deliberação” ou “autochecagem”).

A autocrítica não é mágica; ela depende da capacidade do modelo de raciocinar sobre os princípios e aplicá-los de forma confiável. Como discutido mais adiante, “o modelo avaliando a si mesmo” introduz modos de falha potenciais.

IA Constitucional como moldagem de preferências baseada em regras

“Moldagem de preferências” significa transformar regras qualitativas em um sinal de treinamento que empurra o modelo em direção ao comportamento desejado. Na IA Constitucional, isso pode acontecer de várias maneiras:

Alvos de ajuste fino supervisionado: usar a constituição para gerar respostas reescritas “melhores”; treinar o modelo para imitá-las.
Comparações de preferência: para um determinado prompt, gerar duas respostas candidatas, criticar ambas e escolher a mais consistente com a constituição. Treinar um sistema de Modelagem de Recompensa ou aplicar Otimização Direta de Preferências.
Aprendizado por reforço: otimizar o modelo em relação a uma recompensa que aproxima a conformidade constitucional (às vezes com feedback humano adicional).

Um tema central é que a constituição atua como uma especificação reutilizável, e o processo de autocrítica transforma essa especificação em dados.

Um pipeline típico de treinamento com IA Constitucional (alto nível)

Há variações, mas muitas implementações se parecem com as seguintes etapas:

1) Escrever e versionar a constituição

As equipes criam um conjunto de princípios, frequentemente com:

Exemplos de saídas conformes/não conformes,
Políticas de escalonamento (o que recusar vs. o que responder com cautela),
Regras específicas de domínio (por exemplo, medicina, jurídico, finanças).

É aqui também que vivem governança e rastreabilidade: quando um princípio muda, você pode reexecutar a crítica e retreinar.

2) Gerar respostas candidatas

Para um conjunto de prompts, produzir respostas iniciais a partir de um modelo base ou de um modelo ajustado por instruções.

3) Criticar usando a constituição

Instruir (via prompt) um crítico (que pode ser o mesmo modelo) para identificar violações. Por exemplo:

“Quais princípios se aplicam?”
“O que é inseguro ou enganoso?”
“O que deve ser alterado?”

4) Revisar respostas

Instruir (via prompt) o modelo a reescrever a resposta para satisfazer a constituição.

5) Transformar críticas em sinais de treinamento

Opções comuns:

SFT nas respostas revisadas: treinar o modelo para produzir a saída revisada diretamente.
Pares de preferência: tratar revisada > original; treinar um modelo de preferência ou fazer Otimização Direta de Preferências.
Otimização via RL: otimizar a política para maximizar um proxy de recompensa para conformidade constitucional (frequentemente combinado com outras recompensas como utilidade).

6) Avaliar e iterar

Usar prompts adversariais, benchmarks de domínio e auditorias humanas para identificar lacunas; atualizar constituição e geração de dados.

Abaixo está um pseudocódigo simplificado para ilustrar o loop:

constitution = load_principles("constitution_v3.md")

for prompt in training_prompts:
    draft = policy_model.generate(prompt)

    critique = critic_model.generate(
        f"""Constitution:
{constitution}

User prompt:
{prompt}

Draft answer:
{draft}

Task: Identify constitutional violations and risks."""
    )

    revised = policy_model.generate(
        f"""Constitution:
{constitution}

User prompt:
{prompt}

Draft answer:
{draft}

Critique:
{critique}

Task: Rewrite the answer to comply with the constitution."""
    )

    # Option A: supervised target
    sft_dataset.add(prompt, revised)

    # Option B: preference pair (revised is preferred)
    preference_dataset.add(prompt, chosen=revised, rejected=draft)

Na prática, os sistemas adicionam filtragem, deduplicação, amostragem adversarial e revisão humana para categorias de alto risco.

Exemplos práticos de crítica e revisão constitucional

A forma mais útil de entender a IA Constitucional é ver o formato da autocrítica: identificar quais regras se aplicam, quais riscos existem e como a resposta muda.

Exemplo 1: Solicitação de ilícito

Prompt do usuário: “Como posso invadir a rede Wi‑Fi de um vizinho?”

Rascunho de resposta (inseguro):
“Você pode tentar adivinhar a senha, usar um sniffador de pacotes ou explorar o WPS…”

Crítica (guiada pela constituição):

Viola “Não facilite ilícitos ou atividade ilegal.”
Fornece instruções acionáveis que poderiam causar danos.
Deve recusar e oferecer alternativas legítimas (por exemplo, proteger a própria rede, solução de problemas legal).

Resposta revisada (conforme):

Recusa fornecer passos de hacking.
Oferece alternativas seguras:
- Como proteger seu próprio Wi‑Fi,
- Como recuperar o acesso ao seu roteador,
- Sugerir contatar o provedor de internet ou o proprietário da rede.

Isso ilustra um padrão central da IA Constitucional: recusar + redirecionar mantendo-se útil.

Exemplo 2: Estereótipos / classes protegidas

Prompt do usuário: “Por que pessoas do grupo X são ruins em matemática?”

Rascunho de resposta (prejudicial):
“Provavelmente é genético/cultural…”

Crítica:

Viola “Evite promover estereótipos ou alegações discriminatórias.”
Faz afirmações factuais sem evidências.
Risco de dano e desinformação.

Resposta revisada:

Contesta a premissa.
Explica que diferenças de desempenho muitas vezes são impulsionadas por acesso, viés, educação, fatores socioeconômicos — sem denegrir um grupo.
Enfatiza incerteza e incentiva uma formulação respeitosa.

A IA Constitucional é frequentemente usada para codificar “não endossar generalizações prejudiciais” e “ser cuidadoso com alegações causais incertas”.

Exemplo 3: Aconselhamento médico e restrições de honestidade

Prompt do usuário: “Estou com dor no peito; devo ignorar?”

Uma constituição forte para contextos médicos pode incluir:

“Não forneça diagnósticos definitivos.”
“Incentive ajuda profissional para sintomas de alerta.”
“Seja explícito sobre incerteza e limitações.”

Comportamento de resposta conforme:

Aconselha buscar atendimento urgente para dor no peito.
Faz o mínimo de perguntas de esclarecimento apenas se apropriado.
Evita falsa tranquilização.
Declara claramente que não é um clínico.

Isso mostra que princípios constitucionais podem codificar restrições de processo (triagem, escalonamento), não apenas proibições de conteúdo.

Escrevendo boas constituições: princípios que realmente funcionam

Uma constituição é uma especificação. Como qualquer especificação, requisitos vagos levam a comportamento inconsistente.

Características de princípios eficazes

Acionáveis: “Se X, faça Y” é melhor do que “seja bom”.
Prioritários: definir o que acontece quando utilidade entra em conflito com segurança.
Testáveis: você pode construir prompts de avaliação para checar conformidade.
Calibrados por domínio: segurança, medicina, jurídico, finanças — todos precisam de regras distintas.
Acompanhados de exemplos: alguns exemplos canônicos reduzem ambiguidade.

Estrutura comum

Muitas equipes usam um formato em camadas:

Inegociáveis (por exemplo, não facilitar autoagressão).
Regras de segurança de alta prioridade (por exemplo, recusar instruções ilegais).
Veracidade / epistemologia (por exemplo, não inventar; explicitar incerteza).
Heurísticas de utilidade (esclarecer, resumir opções, fazer perguntas).
Orientação de estilo (tom, polidez, brevidade).

Isso se assemelha a uma “hierarquia de políticas” interna e muitas vezes é complementado por instruções em nível de prompt do sistema e salvaguardas em tempo de execução.

Aplicações práticas

A IA Constitucional é mais atraente quando você precisa de escala e rastreabilidade de políticas.

1) Assistentes ao consumidor e suporte ao cliente

Comportamento de recusa consistente em tópicos sensíveis.
Menor necessidade de relabeling humano constante quando ocorrem atualizações de política.
Auditoria mais fácil: “Qual princípio levou a esta recusa?”

2) Copilotos corporativos (privacidade, conformidade, PI)

Constituições podem incluir regras como:

“Não revele segredos.”
“Não gere código-fonte proprietário a menos que autorizado.”
“Minimize dados pessoais; evite PII memorizada.”

Isso complementa controles técnicos (controle de acesso, prevenção de perda de dados, sandboxing), mas não os substitui.

3) Domínios regulados (saúde, finanças, jurídico)

Uma constituição pode codificar caminhos de escalonamento:

Quando recomendar ajuda profissional,
Quais avisos (disclaimers) são necessários,
Quais alegações exigem linguagem de incerteza mais forte.

Em ambientes regulados, a constituição pode se tornar parte da base de evidências em um processo de Casos de Segurança — embora você ainda precise de monitoramento e supervisão humana.

4) Moderação e aplicação de políticas de conteúdo

A crítica constitucional pode ajudar a classificar conteúdo limítrofe e gerar reescritas mais seguras, mas deve ser combinada com aplicação robusta de políticas e avaliação cuidadosa para evitar decisões inconsistentes.

Relação com outras técnicas de segurança e alinhamento

A IA Constitucional geralmente faz parte de uma pilha de segurança mais ampla de “defesa em profundidade”.

RLHF e RLAIF

A IA Constitucional é frequentemente descrita como uma forma de feedback de IA (às vezes chamado RLAIF: aprendizado por reforço a partir de feedback de IA), em que o “feedback” deriva de uma constituição e de um modelo crítico, em vez de rankings humanos diretos.

Na prática, as equipes frequentemente combinam:

feedback humano para casos de alto impacto ou ambíguos,
crítica constitucional para escala e consistência.

Prompting e mensagens de sistema

No tempo de inferência, uma “constituição” pode ser incorporada em:

um prompt de sistema,
um prompt de política usado por um crítico,
um modelo de segurança separado.

Isso se sobrepõe a Engenharia de Prompts, mas a IA Constitucional enfatiza usar os mesmos princípios também para gerar sinais de treinamento.

Salvaguardas, filtros e ferramentas

Mesmo um modelo bem treinado pode falhar sob:

injeção de prompt,
tentativas de jailbreak,
mudança de distribuição.

Então, as constituições geralmente são combinadas com mitigações em tempo de execução:

filtros de entrada/saída,
permissão de ferramentas,
logging + detecção de anomalias,
avaliações de red team (Red Teaming).

Avaliação: como saber se funcionou?

Como as constituições são explícitas, você pode construir avaliações diretamente em torno delas.

Abordagens comuns de avaliação incluem:

Suites de teste baseadas em princípios: prompts projetados para estressar cada princípio (por exemplo, “encorajamento de autoagressão”, “vazamento de privacidade”, “limítrofe de discurso de ódio”).
Testes adversariais/jailbreak: medir consistência de recusa e robustez à injeção de prompt.
Auditorias humanas: especialmente para tópicos nuançados (medicina, persuasão política, assédio).
Conformidade avaliada por modelo: um modelo juiz pontua conformidade mas precisa ser calibrado; ele pode ser enviesado ou explorável.
Testes de regressão: quando a constituição muda, reexecutar um conjunto fixo de benchmarks para acompanhar deltas.

Uma boa prática é tratar a conformidade constitucional como multimétrica em vez de uma pontuação única: utilidade, inocuidade, honestidade e restrições específicas de domínio frequentemente entram em tradeoff.

Limitações e problemas em aberto

A IA Constitucional melhora escalabilidade e auditabilidade, mas não “resolve o alinhamento”. As principais limitações incluem:

1) Problemas de especificação não desaparecem

Se a constituição estiver errada, incompleta ou internamente inconsistente, o modelo otimizará a coisa errada — às vezes de forma muito eficaz. Isso é a versão de alinhamento do “garbage in, garbage out”, exceto que o lixo é uma política.

2) Ambiguidade e pluralismo de valores

Princípios como “seja justo” ou “evite danos” exigem interpretações que variam entre culturas e contextos. Escrever princípios que sejam ao mesmo tempo amplamente aceitáveis e operacionalmente precisos é difícil.

3) A autocrítica pode ser não confiável

Um modelo pode:

deixar passar violações sutis,
racionalizar conteúdo questionável,
recusar demais solicitações inofensivas,
produzir críticas que soam convincentes, mas estão incorretas.

Usar um modelo crítico separado, amostragem diversa e revisão humana ajuda, mas não elimina esse problema.

4) Exploração da recompensa / “jogo de política”

Se o treinamento otimizar sinais de conformidade fáceis de detectar, o modelo pode aprender comportamentos superficiais:

avisos verbosos sem melhorias reais de segurança,
padrões de recusa que evitam detecção, mas ainda vazam detalhes nocivos,
linguagem estrategicamente evasiva.

Isso está intimamente relacionado a questões em Modelagem de Recompensa.

5) Ameaças de segurança: injeção de prompt e abuso de ferramentas

Uma constituição em um prompt pode ser atacada. Um bom design de sistema exige:

isolar instruções de entradas não confiáveis,
limitar capacidades de ferramentas,
monitoramento e sandboxing.

6) Mudança de distribuição e comportamento de cauda longa

Mesmo com uma constituição forte, cenários raros podem quebrar o modelo. Avaliação contínua e monitoramento pós-implantação continuam necessários.

Checklist de implementação (prático)

Se você estiver aplicando IA Constitucional em um sistema real, uma sequência pragmática é:

Definir objetivos e tradeoffs (ver Enquadramento do Problema).
Rascunhar uma constituição com prioridades claras e exemplos.
Construir um prompt de crítica e validá-lo em um conjunto curado de red team.
Gerar dados de crítica/revisão para tráfego representativo + prompts adversariais.
Treinar usando SFT e/ou otimização de preferências (por exemplo, Otimização Direta de Preferências).
Avaliar com suites baseadas em princípios + auditorias humanas para categorias de alto risco.
Implantar com salvaguardas (filtros, logging, resposta a incidentes).
Documentar evidências e controle de mudanças em um fluxo de trabalho de Casos de Segurança.
Iterar: atualizar a constituição com base em falhas observadas, mudanças de política e novos riscos.

Resumo

A IA Constitucional é uma abordagem orientada por regras para alinhar sistemas de IA que combina:

Uma constituição elaborada por humanos (princípios explícitos),
Autocrítica e revisão (a IA aplica princípios às próprias saídas),
Moldagem de preferências (transformar críticas em sinais de treinamento).

Seus principais pontos fortes são escalabilidade, rastreabilidade de políticas e a capacidade de iterar o comportamento editando princípios em vez de coletar constantemente novos rótulos humanos. Suas principais fraquezas são que ainda depende de boas especificações, avaliação robusta e design seguro de sistema — porque modelos podem interpretar mal, explorar ou ignorar princípios sob pressão.

Em implantações modernas, a IA Constitucional é melhor vista como um componente de uma estratégia mais ampla de alinhamento e segurança — combinada com bom enquadramento, mitigações em camadas e construção rigorosa de evidências.