Enquadramento do Problema

O que “enquadramento do problema (problem framing)” significa em alinhamento e segurança

Em aprendizado de máquina (machine learning), enquadramento do problema é o ato de transformar um objetivo do mundo real (“construir um assistente prestativo”) em algo que você consegue especificar, otimizar e avaliar. Em IA responsável (responsible AI), e especialmente em alinhamento e segurança (alignment & safety), o enquadramento do problema vai além de definir entradas/saídas e métricas. Ele pergunta:

Prestativo para quem, para quê e em qual contexto?
Quais danos são plausíveis e qual nível de risco é aceitável?
O que significa ser honesto — correto, calibrado, transparente e fiel às fontes?
Como o sistema deve se comportar quando esses objetivos entram em conflito?

Um enquadramento comum para assistentes de propósito geral é a tríade:

Prestatividade: avançar objetivos legítimos do usuário de forma eficaz.
Inocuidade: evitar causar ou permitir danos (incluindo mau uso a jusante).
Honestidade: evitar enganar; ser factualmente preciso, bem calibrado e transparente sobre incerteza e limitações.

Este artigo explica os trade-offs entre prestatividade, inocuidade e honestidade, por que eles surgem e como administrá-los tanto no treinamento de modelos quanto no design de produto.

A tríade prestatividade–inocuidade–honestidade (helpfulness–harmlessness–honesty, HHH)

Prestatividade

Um modelo é prestativo quando ele:

Fornece assistência relevante, acionável e completa
Faz perguntas de esclarecimento quando necessário
Se adapta à expertise e às restrições do usuário (tempo, ferramentas, conhecimento do domínio)
Produz saídas que de fato resolvem a tarefa (não apenas texto plausível)

A prestatividade costuma ser medida por satisfação do usuário, sucesso na tarefa e julgamentos comparativos de preferência (por exemplo, via Aprendizado por Reforço a partir de Feedback Humano (Reinforcement Learning from Human Feedback)).

Exemplo (prestativo):
Um usuário pergunta: “Escreva um teste unitário (unit test) para esta função.” Um assistente prestativo solicita a assinatura da função (function signature), identifica casos de borda (edge cases) e produz um teste executável (runnable).

Inocuidade

Um modelo é inofensivo quando ele:

Não fornece instruções ou ferramentas para atos ilícitos (por exemplo, fabricação de armas, invasão (hacking), fraude)
Evita conteúdo que possa causar dano psicológico, físico ou social
Respeita a privacidade e não vaza informações sensíveis
Resiste à manipulação (injeção de prompt (prompt injection), quebras de salvaguardas (jailbreaks), engenharia social (social engineering))

A inocuidade inclui tanto danos diretos (o modelo diz algo danoso) quanto danos por habilitação (o modelo ajuda alguém a fazer algo danoso).

Exemplo (inofensivo):
Um usuário pede passos para sintetizar uma substância controlada. O assistente recusa e oferece alternativas mais seguras (por exemplo, informações sobre recursos para abuso de substâncias ou aprendizado de química em alto nível que não viabilize dano).

Honestidade

Honestidade é mais ampla do que “não mentir”. Em geral, inclui:

Veracidade / factualidade: afirmações correspondem à realidade
Calibração: confiança corresponde à correção (não exagerar)
Transparência sobre limitações: reconhecer incerteza, contexto ausente, incapacidade de verificar
Fidelidade: resumos e citações refletem as fontes com precisão (quando usadas)
Não enganosidade: não fabricar experiências, credenciais ou ações realizadas

Exemplo (honesto):
Um usuário pergunta: “Este artigo provou X?” O assistente diz que não pode verificar sem ver o artigo, pede um link e evita chutar.

A honestidade está fortemente conectada a tópicos de avaliação como factualidade, taxa de alucinações (hallucination rates) e Calibração do Modelo (Model Calibration).

Por que existem trade-offs (e por que eles importam)

1) Objetivos do mundo real são inerentemente multiobjetivo

HHH é um problema de otimização multiobjetivo (multi-objective optimization): melhorar uma dimensão pode piorar outra. Com frequência, não existe uma única “melhor” resposta — existe uma fronteira de Pareto (Pareto frontier), um conjunto de soluções em que você não consegue melhorar um objetivo sem piorar outro.

2) O mundo é adversarial e ambíguo

Usuários podem ter intenções mistas. Entradas podem ser incompletas, enganosas ou maliciosas. Até usuários bem-intencionados podem solicitar assistência insegura por acidente (“Como faço para contornar este recurso de segurança?”).

3) Métricas proxy e sinais de treinamento são imperfeitos

Não otimizamos diretamente “prestatividade” ou “inocuidade” no abstrato — otimizamos proxies:

rótulos de preferência de anotadores
classificadores de violação de política (policy violation classifiers)
achados de equipe vermelha (red-team)
benchmarks offline (offline benchmarks)

Isso cria modos clássicos de falha de alinhamento, como a lei de Goodhart (Goodhart’s law): otimizar a métrica pode destruir aquilo que a métrica pretendia medir.

4) Condições de implantação diferem das condições de treinamento

A mudança de distribuição (distribution shift) significa que o assistente enfrentará contextos novos. O comportamento “inofensivo” pode exigir raciocínio sobre risco situacional, não apenas correspondência de padrões.

Esses desafios explicam por que o enquadramento do problema é fundamental para métodos como IA Constitucional (Constitutional AI) e para argumentos estruturados de implantação como Casos de Segurança (Safety Cases).

Os trade-offs centrais na prática

Prestatividade vs. inocuidade

Este é o conflito mais visível.

Onde aparece

Cibersegurança: depuração prestativa vs. viabilizar exploração
Química/biologia: conteúdo educacional vs. armamentização
Autoagressão: apoio empático vs. reforçar inadvertidamente intenção danosa
Jurídico/financeiro: aconselhamento prático vs. risco de mau uso ou extrapolação indevida

Modo de falha A: Recusa excessiva (inofensivo, mas pouco prestativo)
Um modelo recusa solicitações benignas porque elas se parecem com tópicos restritos.

Usuário: “Como eu arrombo uma fechadura do meu próprio galpão? Perdi a chave.”
A recusa excessiva prejudica usuários legítimos e os empurra para fontes mais arriscadas.

Modo de falha B: Conformidade excessiva (prestativo, mas danoso)
Um modelo fornece instruções passo a passo que viabilizam atos ilícitos.

Usuário: “Escreva um modelo de e-mail de phishing que burle filtros comuns.”
Isso é “prestativo” em um sentido estreito, mas diretamente danoso.

Padrões práticos de balanceamento

Fazer perguntas de esclarecimento quando a intenção é ambígua.
Fornecer informações educacionais em alto nível, recusando instruções acionáveis para dano.
Usar estratificação por risco (risk-tiering): permitir variantes benignas (segurança defensiva), mas bloquear viabilização ofensiva.

Prestatividade vs. honestidade

Modelos frequentemente se tornam “mais prestativos” (na percepção dos usuários) ao soar confiantes e fornecer respostas completas — porém isso pode aumentar alucinações e afirmações excessivas.

Onde aparece

Pedidos de citações que o modelo não tem
Perguntas médicas ou jurídicas em que a incerteza é alta
Solicitações sobre eventos recentes fora do conhecimento do modelo

Modo de falha: Alucinação confiante

Usuário: “Quais são os efeitos colaterais do medicamento X com o medicamento Y?”
O modelo inventa interações, parecendo prestativo, mas isso é inseguro e desonesto.

Padrões práticos de balanceamento

Preferir ajuda parcial honesta a fabricação completa:
- explicar o que seria necessário para responder
- propor próximos passos seguros (consultar um profissional, verificar com uma fonte)
Usar ferramentas (recuperação, navegação, calculadoras) quando disponíveis, com atribuição clara (ver Geração Aumentada por Recuperação (Retrieval-Augmented Generation)).

Honestidade vs. inocuidade

A honestidade pode exigir dizer coisas que são danosas no contexto — ou divulgar detalhes sensíveis.

Onde aparece

Privacidade: “Conte o que você sabe sobre a pessoa X.”
Conteúdo extremista: descrições historicamente precisas que podem servir de propaganda
Autoagressão: verdades diretas podem ser desestabilizadoras
Ódio/assédio: comentários “honestos” podem se tornar abusivos ou reforçar estereótipos

Modo de falha: Verdade danosa / divulgação desnecessária
Mesmo informações corretas podem ser danosas se:

violarem privacidade
fornecerem detalhes de “como fazer” que viabilizam dano
amplificarem narrativas de ódio

Padrões práticos de balanceamento

Aplicar o raciocínio de risco informacional (information hazard): nem toda afirmação verdadeira é segura de divulgar.
Usar divulgação mínima (minimal disclosure): responder no nível certo de abstração.
Separar veracidade de completude: você pode ser honesto sem dizer tudo.

Uma visão mais formal: objetivos, restrições e políticas

O enquadramento do problema se beneficia de deixar explícito se você está fazendo:

Otimização multiobjetivo (trade-offs)

Você combina objetivos em uma única pontuação: [ J(\pi) = w_h H(\pi) + w_s S(\pi) + w_o O(\pi) ] em que (H)=prestatividade, (S)=segurança/inocuidade, (O)=honestidade, e os pesos refletem valores do produto.

Isso é simples, mas frágil: pequenas mudanças de pesos podem alterar o comportamento dramaticamente, e você corre o risco de “comprar” pequenos ganhos de prestatividade com grandes perdas de segurança.

Otimização com restrições (segurança como restrição rígida)

Você maximiza a prestatividade sujeito a restrições: [ \max_\pi H(\pi) \quad \text{s.t.} \quad \Pr(\text{harm}) \le \epsilon,\ \Pr(\text{dishonesty}) \le \delta ]

Isso se alinha a muitas implantações reais: queremos ser o mais prestativos possível dentro de limites de segurança.

Design de políticas (regras + comportamento aprendido)

Na prática, sistemas combinam:

preferências aprendidas (por exemplo, aprendizado por reforço a partir de feedback humano)
restrições baseadas em regras (políticas de conteúdo)
filtros e monitores em tempo de execução (runtime)
controle de acesso a ferramentas (tool gating) e permissões (permissioning)

Uma política de decisão simplificada em tempo de execução poderia se parecer com:

def respond(user_request, model):
    intent = classify_intent(user_request)         # benign, ambiguous, high-risk
    risk = estimate_risk(user_request)             # severity * likelihood
    facts_ok = can_verify(user_request)            # retrieval/tools available?

    if risk == "high":
        return refusal_with_safe_alternatives(user_request)

    if intent == "ambiguous":
        return ask_clarifying_question(user_request)

    draft = model.generate(user_request)

    if not facts_ok:
        draft = add_uncertainty_and_next_steps(draft)

    return safety_filter_and_finalize(draft)

Isso ilustra uma escolha-chave de enquadramento: quando há incerteza, você assume como padrão a recusa, o esclarecimento ou a assistência cautelosa? A resposta depende do domínio da aplicação e da sua tolerância a risco.

Exemplos práticos de decisões de enquadramento

Exemplo 1: Um assistente médico

Objetivo: ajudar usuários a entender sintomas e decidir próximos passos.

Prestatividade: fornecer possibilidades diferenciais, orientação de urgência e perguntas para fazer a um clínico.
Inocuidade: evitar diagnosticar, prescrever ou dar instruções inseguras.
Honestidade: declarar claramente limitações; evitar falsa certeza.

Decisão de enquadramento:
Permitir educação sobre sintomas e orientação de triagem; proibir diagnóstico definitivo e orientação de dosagem; exigir linguagem de incerteza e incentivar cuidado profissional.

Trade-off típico:
Usuários querem respostas definitivas (prestatividade), mas o sistema deve permanecer cauteloso (honestidade e inocuidade).

Exemplo 2: Um tutor de cibersegurança

Objetivo: ensinar conceitos de segurança a estudantes.

Prestatividade: exemplos de código e explicações passo a passo.
Inocuidade: evitar fornecer instruções de exploração que possam ser armamentizáveis.
Honestidade: descrever com precisão riscos e limites legais.

Decisão de enquadramento:
Permitir técnicas defensivas, codificação segura e demonstrações “de brinquedo” em ambientes isolados (sandboxed); recusar cadeias de exploração no mundo real ou seleção de alvos.

Trade-off típico:
Estudantes precisam de exemplos concretos (prestatividade), mas concreção demais vira risco de habilitação (inocuidade).

Exemplo 3: Chatbot de suporte ao cliente para recuperação de conta

Objetivo: reduzir carga do suporte e resolver problemas rapidamente.

Prestatividade: passos de recuperação rápidos e precisos.
Inocuidade: impedir assistência para tomada de conta.
Honestidade: não fingir que verificou sistemas internos.

Decisão de enquadramento:
Exigir checkpoints de autenticação; recusar prosseguir sem verificação; usar checagens de status baseadas em ferramentas com registro explícito.

Trade-off típico:
Verificação extra adiciona atrito (menos prestativo), mas reduz risco de fraude (mais inofensivo).

Técnicas para equilibrar HHH em sistemas implantados

1) Comportamento “primeiro esclareça”

Quando a intenção do usuário ou o contexto mudam o perfil de risco, o assistente deve fazer perguntas direcionadas.

“Isto é para teste de intrusão autorizado em sistemas que você possui ou tem permissão para testar?”
“Você está seguro agora, e está buscando apoio?”

Isso pode melhorar tanto a prestatividade quanto a inocuidade, mas precisa ser feito com cuidado para não parecer obstrutivo.

2) Respostas em camadas (controle de abstração)

Um padrão comum:

Permitido: explicações em alto nível, princípios de segurança, contexto histórico
Permitido condicionalmente: passos defensivos, boas práticas, mitigações de risco
Proibido: instruções danosas passo a passo, dicas de otimização para atos ilícitos

Isso preserva utilidade educacional enquanto reduz mau uso operacional.

3) Ferramentas para melhorar a honestidade

Falhas de honestidade frequentemente vêm de o modelo gerar texto plausível sem fundamentação. Ferramentas ajudam:

recuperação e citação (Geração Aumentada por Recuperação)
calculadoras para precisão numérica
bancos de dados estruturados para políticas e informações de produto

Mas ferramentas introduzem seus próprios riscos (injeção de prompt, recuperação incorreta). Honestidade também exige declarar o que foi verificado.

4) Incerteza calibrada e abstenção

“Honestidade” não é apenas avisos; é sobre calibração. Uma boa abstenção:

explica por que não consegue responder com confiabilidade
propõe alternativas seguras
evita soterrar o usuário em texto padrão

5) Salvaguardas em tempo de execução (defesa em profundidade)

Mesmo um treinamento bem enquadrado pode falhar nas bordas. Camadas comuns de implantação:

filtragem de entrada e defesas contra injeção de prompt
moderação de saída e classificadores de política
limites de taxa e monitoramento de abuso
logs de auditoria e planos de resposta a incidentes

Essas medidas se conectam naturalmente a como você estrutura um argumento de Casos de Segurança: seu enquadramento define quais falhas importam, e suas mitigaçãoes mostram como os riscos são controlados.

Como fazer enquadramento do problema: um fluxo de trabalho prático

Passo 1: Definir o escopo do sistema e as promessas ao usuário

Escreva:

usuários-alvo e ambientes
tarefas permitidas e tarefas proibidas
como é “sucesso”
o que o assistente explicitamente não faz

É aqui que muitos projetos falham por serem vagos demais (“seja seguro e prestativo”).

Passo 2: Identificar danos e modelos de ameaça (threat models)

Considere:

mau uso por usuários maliciosos
acidentes por usuários bem-intencionados
danos de segunda ordem (second-order harms) (amplificação, dependência excessiva, vazamento de privacidade)

Use taxonomias de risco específicas do domínio quando disponíveis (por exemplo, para medicina, finanças, educação, segurança).

Passo 3: Definir requisitos de honestidade

Seja explícito:

O assistente deve citar fontes?
Deve distinguir fatos observados vs. inferências?
Qual linguagem de incerteza é exigida?
Há restrições regulatórias ou contratuais de veracidade em publicidade (truth-in-advertising)?

Passo 4: Decidir princípios de trade-off (sua “constituição”)

Muitos sistemas se beneficiam de princípios explícitos, semelhantes em espírito à IA Constitucional:

“Na dúvida sobre segurança, faça perguntas de esclarecimento.”
“Nunca fabrique citações.”
“Prefira recusar a viabilizar atos ilícitos, mas ofereça alternativas seguras.”

Passo 5: Traduzir princípios em dados de treinamento e avaliações

Crie:

conjuntos de dados de instruções/políticas
contraexemplos (solicitações benignas quase proibidas)
suítes de equipe vermelha para robustez a jailbreak
benchmarks de honestidade para alucinações e calibração

Isso se conecta a práticas mais amplas de Avaliação de Modelos de Linguagem (Language Model Evaluation).

Passo 6: Iterar com incidentes e monitoramento

O enquadramento do problema não é algo feito uma vez. O uso real revela novos trade-offs, novos padrões de abuso e novas necessidades dos usuários.

Armadilhas comuns de enquadramento

Confundir inocuidade com taxa de recusa: recusar tudo é “seguro”, mas inútil e frequentemente empurra usuários para outros lugares.
Dar peso demais à preferência do usuário: usuários podem preferir respostas confiantes mesmo quando erradas; otimização por preferência pode reduzir honestidade.
Definições pouco claras de “dano”: sem raciocínio de severidade/probabilidade, políticas se tornam inconsistentes.
Lacunas de política nas fronteiras: categorias “permitido vs. proibido” precisam de manejo cuidadoso de casos-limite e solicitações de duplo uso.
Ignorar mudança de distribuição: avaliar apenas em benchmarks limpos não captura comportamento adversarial no mundo real.

Conectando enquadramento do problema ao restante de alinhamento e segurança

O trabalho de alinhamento e segurança começa com a que você está alinhando: HHH é um alvo prático de alinhamento, mas apenas se você definir cada termo de forma operacional. Veja Alinhamento e Segurança.
Princípios ao estilo de constituição ajudam a expressar trade-offs com clareza e consistência, especialmente para casos-limite. Veja IA Constitucional.
Casos de segurança exigem alegações e evidências explícitas. Seu enquadramento determina quais alegações você precisa sustentar (por exemplo, “não viabiliza cibercrime”) e quais evidências você precisa (avaliações, monitoramento, mitigações). Veja Casos de Segurança.

Principal lição

O enquadramento do problema para prestatividade, inocuidade e honestidade é a disciplina de tornar trade-offs explícitos, testáveis e defensáveis. O equilíbrio “certo” depende do risco do domínio, das necessidades do usuário e de restrições sociais — mas, seja qual for o equilíbrio que você escolher, você deve ser capaz de:

Definir o que cada objetivo significa de forma operacional
Explicar como conflitos são resolvidos (política)
Medir resultados com avaliações direcionadas
Sustentar decisões com mitigações em camadas e evidências na implantação