Humano no Loop (Human-in-the-Loop)

O que “Humano no Loop” significa para sistemas agênticos

No aprendizado de máquina (machine learning) clássico, humano no loop (human-in-the-loop, HITL) frequentemente se refere a humanos rotulando dados, revisando saídas do modelo ou fornecendo feedback durante o treinamento. Em sistemas agênticos — especialmente aqueles construídos em torno de Agentes de LLM que podem chamar ferramentas, tomar ações e afetar ambientes reais — HITL significa, de forma mais específica:

  • Revisão: um humano verifica planos, etapas intermediárias ou ações propostas antes de serem executadas.
  • Escalonamento: situações incertas, arriscadas, novas ou sensíveis a políticas são encaminhadas a um humano (ou a um humano mais sênior) em vez de serem tratadas de forma autônoma.
  • Trilhos de segurança (guardrails): restrições (políticas, permissões, isolamento/sandboxing, verificações de validação) que limitam o que um agente pode fazer e definem quando humanos devem se envolver.

Este artigo foca em HITL como um mecanismo operacional de segurança e confiabilidade para comportamento de agentes de alto impacto: sistemas que podem mover dinheiro, acessar dados privados, alterar infraestrutura de produção, fornecer orientação médica ou jurídica, ou agir em nome de usuários de maneiras difíceis de desfazer.

Tópicos intimamente relacionados incluem Segurança para Agentes, Planejamento (Agêntico), Tarefas de Longo Horizonte e Avaliação de Agentes.

Por que HITL é necessário (mesmo com modelos fortes)

Modelos modernos podem ser excelentes em raciocínio e linguagem, mas implantações agênticas introduzem modos de falha adicionais:

  • Risco de ferramentas: uma instrução que parece correta pode ser perigosa quando executada (por exemplo, apagar dados, enviar e-mails, emitir reembolsos).
  • Mudança de distribuição: entradas do mundo real diferem dos dados de treinamento; casos raros de borda aparecem em produção.
  • Erros cumulativos: planos de longo horizonte amplificam pequenos erros ao longo das etapas.
  • Ambiguidade e restrições ocultas: políticas, exigências legais e normas organizacionais podem não estar totalmente capturadas em prompts.
  • Requisitos não técnicos: responsabilização, auditabilidade, conformidade e consentimento do usuário frequentemente exigem aprovação humana explícita.

Assim, HITL é menos sobre “o modelo não é bom o bastante” e mais sobre gestão de risco: garantir que o comportamento do sistema permaneça aceitável sob incerteza e que exista um caminho robusto de recuperação quando algo dá errado.

Fundamentos teóricos (como HITL se encaixa na tomada de decisão)

Teoria de decisão baseada em risco: dano esperado importa mais do que acurácia média

Para ações de alto impacto, você não otimiza “correção média”. Você otimiza para minimizar o dano esperado:

  • Um erro catastrófico de baixa probabilidade pode dominar seu perfil de risco.
  • A mesma saída do modelo pode ser segura em um contexto e insegura em outro (por exemplo, “redefinir senha” em um sandbox vs. em produção).

Isso motiva estratificação por risco e portões de aprovação: o agente pode operar de forma autônoma em ações de baixo impacto, mas exigir autorização humana à medida que o impacto aumenta.

Predição seletiva e abstenção: “não sei” é uma funcionalidade

Uma ideia teórica-chave por trás do escalonamento é a abstenção (abstention): o sistema deve recusar-se a agir quando a confiança é baixa ou as consequências são altas.

Na prática, “confiança” é complicada para LLMs — probabilidades brutas não são confiáveis. Sistemas HITL frequentemente combinam sinais:

  • Regras heurísticas de risco (tipo de ferramenta, permissões, sensibilidade de dados)
  • Indicadores de incerteza (discordância entre amostras, verificações de autoconsistência)
  • Verificações de política (detecção de PII, regras de conformidade)
  • Falhas de verificação de resultado (não consegue provar uma pré-condição)

O princípio é o mesmo: encaminhar casos incertos para um humano em vez de forçar uma decisão autônoma.

Fatores humanos: evitar viés de automação e fadiga de alertas

Adicionar humanos não torna automaticamente os sistemas mais seguros. HITL deve ser projetado para combater:

  • Viés de automação: humanos “carimbam” sugestões do agente, especialmente sob pressão de tempo.
  • Fadiga de alertas: escalonamentos demais fazem revisores ignorarem os importantes.
  • Perda de contexto: revisores não conseguem julgar corretamente sem as evidências certas (logs de ferramentas, justificativa, restrições).

HITL eficaz é tanto sobre design de fluxo de trabalho e interface quanto sobre modelos.

Componentes centrais de HITL para agentes

1) Trilhos de segurança: prevenir ações inseguras por construção

Trilhos de segurança limitam o espaço de ação e impõem regras antes que ações sejam executadas. Trilhos de segurança comuns incluem:

  • Permissões de ferramentas e privilégio mínimo: o agente só tem as capacidades mínimas necessárias.
  • Isolamento e preparação (sandboxing e staging): ações rodam primeiro em um ambiente seguro (simulação/dry-run, prévia/preview, canário/canary).
  • Aplicação de políticas: bloquear conteúdo ou ações não permitidas (por exemplo, tentativas de exfiltração).
  • Esquemas estruturados de ação: exigir que chamadas de ferramenta sigam parâmetros tipados, reduzindo injeção de prompt e ambiguidade.
  • Verificações de pré-condição: verificar se condições necessárias valem antes de executar (por exemplo, “proprietário da conta verificado”).

Trilhos de segurança são cobertos com mais profundidade em Segurança para Agentes, mas HITL frequentemente depende deles: bons trilhos de segurança reduzem escalonamentos desnecessários e tornam aprovações significativas.

2) Portões de revisão: humanos aprovam, editam ou rejeitam ações

Um portão de revisão é um checkpoint explícito no loop de Planejamento (Agêntico). O agente propõe:

  • um plano,
  • uma única ação,
  • ou um lote de ações,

e um revisor humano decide se deve prosseguir.

Modos comuns de revisão:

  • Aprovar/negar (binário)
  • Aprovar com edições (humano modifica parâmetros ou texto)
  • Solicitar mais evidências (o agente deve coletar contexto adicional antes da aprovação)
  • Aprovação passo a passo para fluxos de trabalho de longo horizonte

Portões de revisão são mais eficazes quando o revisor vê os artefatos certos, e não apenas a narrativa do agente:

  • diffs de chamadas de ferramenta (o que vai mudar),
  • contexto do cliente/usuário,
  • trechos relevantes de políticas,
  • logs de como o agente derivou sua recomendação.

3) Escalonamento: encaminhar os casos certos para os humanos certos

Escalonamento é um problema de roteamento: quando o agente encontra risco, incerteza ou limites de políticas, ele deve envolver um humano apropriado.

Estratégias de escalonamento incluem:

  • Escalonamento por limiar: pontuação de risco excede um nível fixo.
  • Escalonamento disparado por política: qualquer ação que toque dados regulados, movimentação de dinheiro ou sistemas de produção.
  • Escalonamento por novidade: entradas estão fora da distribuição ou contêm entidades desconhecidas.
  • Escalonamento por discordância: múltiplas amostras do agente ou validadores discordam.
  • Escalonamento baseado em verificação: o agente não consegue provar restrições-chave.

Escalonamento não é apenas “agente → humano”. Em organizações maduras, ele se torna em camadas:

  • Nível 1: revisor de linha de frente
  • Nível 2: especialista de domínio (segurança, jurídico, finanças)
  • Nível 3: resposta a incidentes / engenheiro de plantão

4) Auditabilidade: logs, proveniência e responsabilização

HITL de alto impacto exige que você consiga responder:

  • O que o agente propôs?
  • O que o humano aprovou?
  • O que foi executado e quando?
  • Quais informações foram mostradas ao humano?
  • Quais checagens de política rodaram e o que retornaram?

Isso normalmente implica:

  • logs imutáveis de chamadas de ferramenta e saídas,
  • prompts/políticas versionados,
  • identidade do revisor e timestamps,
  • IDs de rastreio (trace IDs) em toda a cadeia de execução.

Auditabilidade dá suporte à conformidade e habilita Avaliação de Agentes via análise de incidentes reais e testes de regressão.

Princípios de design para HITL prático

Use estratificação por risco em vez de “humano aprova tudo”

Um anti-padrão comum é fazer humanos aprovarem todas as ações; isso rapidamente se torna lento e ineficaz. Em vez disso, defina níveis de risco como:

  • Nível 0 (Autônomo): recuperação somente leitura, formatação, resumos internos
  • Nível 1 (Autônomo com trilhos de segurança): ações reversíveis de baixo impacto (rascunhar e-mail, criar ticket)
  • Nível 2 (Aprovação humana): ações que afetam clientes ou sistemas externos (enviar e-mail, emitir reembolso)
  • Nível 3 (Especialista + regra de duas pessoas): dados regulados, grande movimentação de dinheiro, deploys em produção
  • Nível 4 (Proibido): ações nunca permitidas para o agente

A estratificação ajuda a alinhar o volume de escalonamentos ao risco organizacional real.

Minimize o “trabalho de revisão”: mostre diffs e consequências

Humanos são melhores em julgar mudanças concretas do que raciocínio abstrato. Prefira aprovações que mostrem:

  • diffs de “antes vs. depois” (configuração, código, campos do banco de dados)
  • uma prévia de mensagens de saída
  • uma lista de efeitos colaterais e dependências
  • opções de rollback

Prefira ações reversíveis e execução em estágios

Quando possível, estruture fluxos de trabalho para que as etapas iniciais sejam seguras e informativas, e apenas etapas posteriores exijam aprovação. Por exemplo:

  1. O agente coleta contexto e rascunha um plano (autônomo)
  2. O agente prepara um conjunto de mudanças propostas (autônomo, dry-run)
  3. Um humano aprova aplicar a mudança (portão)
  4. O agente monitora resultados e desfaz (rollback) se necessário (com trilhos de segurança)

Isso se alinha com execução confiável em Tarefas de Longo Horizonte: verificar etapas intermediárias antes de se comprometer.

Trate revisores como parte do sistema (treinamento, SLAs, playbooks)

HITL falha se humanos estiverem despreparados ou sobrecarregados. Implantações maduras definem:

  • SLAs de revisão (metas de tempo para revisar),
  • playbooks (como lidar com escalonamentos comuns),
  • treinamento e calibração (exemplos de boas aprovações/negações),
  • rotações de plantão para escalonamentos urgentes.

Padrões concretos de HITL para comportamento de agentes de alto impacto

Padrão A: “Propor → Aprovar → Executar” para chamadas sensíveis de ferramentas

Use quando uma única chamada de ferramenta pode causar dano (pagamentos, mudanças de conta, envio de e-mail).

  1. O agente constrói uma proposta de ação estruturada.
  2. O mecanismo de políticas classifica o risco.
  3. Se acima do limiar, o sistema cria uma tarefa de aprovação.
  4. Somente após a aprovação a chamada de ferramenta é executada.

Exemplo: aprovando um reembolso

  • O agente propõe: reembolsar US$ 2.000 ao cliente X devido a cobrança duplicada.
  • O revisor vê: IDs da cobrança, evidências, limites de política e um diff da ação.
  • O revisor aprova; o sistema executa via API de pagamento; logs são armazenados.

Padrão B: Regra de duas pessoas para ações catastróficas ou irreversíveis

Use quando você quer defesa em profundidade contra um erro de um único revisor.

  • Revisor A aprova.
  • Revisor B (independente) aprova.
  • Só então a execução prossegue.

Isso é comum para:

  • exclusão de dados em produção,
  • grandes transferências de fundos,
  • mudanças de acesso sensíveis à segurança.

Padrão C: Escalonamento em conflito de políticas ou intenção ambígua do usuário

Use quando a intenção não está clara ou restrições de políticas se aplicam.

Exemplo: assistente de RH redigindo um e-mail de desligamento

  • O agente pode redigir o texto de forma autônoma.
  • Se detectar categorias sensíveis (licença médica, referências a classe protegida), escalona para RH/jurídico.
  • Um humano edita ou aprova o texto final antes do envio.

Padrão D: Monitoramento contínuo com tomada de controle humana (“humano no comando”)

Em vez de aprovar cada etapa, humanos monitoram e intervêm quando alarmes disparam.

Use quando:

  • latência importa,
  • ações são frequentes, mas geralmente seguras,
  • e você tem detecção de anomalias e rollback confiáveis.

Exemplo: agente de automação de TI aplica patches rotineiros de forma autônoma, mas aciona um engenheiro de plantão se:

  • a taxa de erro dispara,
  • dependências inesperadas aparecem,
  • o rollback falha.

Implementação: incorporando HITL em um loop de agente

Esboço de arquitetura

Uma pilha prática de agentes com HITL frequentemente inclui:

  • Runtime do agente: planejador/executor (Arquiteturas de Agentes)
  • Camada de ferramentas: ferramentas tipadas com escopos de autenticação
  • Motor de políticas: trilhos de segurança, pontuação de risco, lógica de permitir/negar
  • Serviço de aprovação: fila de tarefas, UI, atribuição de revisores, logs de auditoria
  • Pipeline de eventos/logs: rastros imutáveis, observabilidade
  • Avaliador: replay offline e testes de regressão (Avaliação de Agentes)

Pontuação de risco e política como código (exemplo)

Uma configuração simples de políticas pode parecer com:

policies:
  - name: "send_external_email"
    match:
      tool: "email.send"
      recipient_domain: "external"
    risk: 0.7
    requires_approval: true
    reviewer_group: "support_leads"

  - name: "refund_above_limit"
    match:
      tool: "payments.refund"
      amount_usd_gte: 200
    risk: 0.9
    requires_approval: true
    reviewer_group: "finance_ops"
    two_person_rule: true

  - name: "prod_delete"
    match:
      tool: "db.delete"
      environment: "prod"
    action: "deny"
    reason: "Deletion in prod is prohibited for agents"

Esse estilo (“política como código (policy-as-code)”) tem vantagens práticas:

  • controle de versão e revisão,
  • trilhas de auditoria claras,
  • atualizações fáceis sem retreinamento do modelo.

Pseudocódigo do orquestrador: bloqueando uma chamada de ferramenta

def execute_tool_call(agent, proposed_call, context):
    # 1) Validate structure (types, required fields)
    validated = validate_schema(proposed_call)

    # 2) Run guardrails & policy checks
    policy_result = policy_engine.evaluate(validated, context)

    if policy_result.action == "deny":
        return {"status": "blocked", "reason": policy_result.reason}

    if policy_result.requires_approval:
        approval_id = approval_service.create_request(
            proposed_call=validated,
            context_snapshot=context.to_audit_bundle(),
            reviewer_group=policy_result.reviewer_group,
            two_person_rule=policy_result.two_person_rule,
            risk=policy_result.risk,
        )
        decision = approval_service.wait_for_decision(approval_id)

        if decision.status != "approved":
            return {"status": "not_executed", "decision": decision.status}

        # Optional: incorporate human edits safely
        validated = validate_schema(decision.edited_call or validated)

    # 3) Execute with least-privilege credentials
    result = tools.execute(validated)

    # 4) Log for auditing and future evaluation
    audit_log.write({
        "call": validated,
        "policy": policy_result.to_dict(),
        "result": result.summary(),
        "trace_id": context.trace_id,
    })

    return {"status": "executed", "result": result}

Pontos-chave:

  • Humanos aprovam ações estruturadas (não texto livre).
  • Edições humanas ainda passam por validação.
  • O registro (logging) captura tanto a proposta quanto a chamada final executada.

UX do revisor: o que mostrar em uma solicitação de aprovação

Para decisões de alta qualidade, uma UI de aprovação deve incluir:

  • A ação exata a ser executada (parâmetros estruturados)
  • Um diff/prévia (corpo da mensagem, mudança de configuração, plano de consulta SQL)
  • Evidências relevantes (documentos recuperados, recibos, consentimento do usuário)
  • Contexto de políticas (por que foi escalonado, qual regra disparou)
  • Plano de rollback (se aplicável)
  • Escolhas claras: aprovar / rejeitar / solicitar mais informações / editar

Se revisores precisarem reconstruir o contexto manualmente a partir de logs de chat, a qualidade das aprovações geralmente cai.

Exemplos práticos

Exemplo 1: Agente de suporte ao cliente emitindo reembolsos e enviando e-mails

Cenário: Um agente faz triagem de tickets, redige respostas e pode emitir reembolsos.

  • Autônomo: resumir ticket, encontrar detalhes do pedido, rascunhar resposta
  • Escalonar: reembolso > US$ 200, clientes VIP, sinais potenciais de fraude
  • Trilhos de segurança: não pode mudar destino de pagamento; reembolsos apenas para o método de pagamento original
  • Portão de revisão: líder de suporte aprova reembolsos de alto valor e e-mails externos que mencionem ameaças legais

Benefícios:

  • Tratamento mais rápido de problemas rotineiros
  • Atenção humana focada onde importa
  • Risco reduzido de aplicação inconsistente de políticas

Exemplo 2: Agente de DevOps gerenciando infraestrutura de produção

Cenário: Um agente responde a alertas, roda diagnósticos e pode modificar infraestrutura.

  • Autônomo: ler logs/métricas; abrir ticket de incidente; propor mitigação
  • Aprovação humana: deploy em produção, mudar regras de firewall, modificar funções IAM
  • Regra de duas pessoas: credenciais rotativas, exclusão, migrações de banco de dados
  • Monitoramento: se um deploy canário falhar, o agente faz rollback automático e escalona

Isso frequentemente combina HITL com ambientes de staging e lançamentos canário — trilhos de segurança que tornam aprovações humanas menos frequentes e mais confiantes.

Exemplo 3: Assistente de documentação clínica (alto impacto, baixa autonomia)

Cenário: Um sistema redige resumos de pacientes e sugere códigos CID.

  • Autônomo: redigir nota a partir de transcrição
  • Revisão estrita: clínico deve aprovar a nota final e os códigos
  • Trilhos de segurança: sem pedido direto de medicamentos/exames; sem mensagens ao paciente sem aprovação do clínico
  • Escalonamento: nomes de medicamentos incertos, contraindicações ou alergias ausentes

Aqui, HITL é essencialmente obrigatório porque a responsabilização clínica permanece com profissionais licenciados.

Medindo se HITL está funcionando

HITL é um sistema de controle. Você deve medir tanto segurança quanto desempenho operacional:

  • Precisão/recall de escalonamento (proxy):
    • Precisão: fração de escalonamentos que revisores concordam que eram necessários
    • Recall: fração de incidentes que deveriam ter escalonado, mas não escalaram
  • Taxa de substituição (override): quão frequentemente humanos rejeitam ou editam substancialmente propostas do agente
  • Tempo até aprovação / tempo até resolução: impacto de latência ponta a ponta
  • Taxa e severidade de incidentes: antes/depois de mudanças em HITL
  • Carga do revisor e saúde da fila: tamanho do backlog, aprovações envelhecidas, sinais de fadiga de alertas
  • Arrependimento pós-aprovação: casos em que ações aprovadas causaram problemas (indicador antecedente de lacunas de UX/política)

A avaliação offline pode reproduzir rastros históricos com políticas atualizadas para ver como padrões de escalonamento mudam — uma parte importante de Avaliação de Agentes.

Modos de falha comuns e mitigação

Aprovação automática (viés de automação)

Problema: Humanos aprovam sem escrutínio.
Mitigações:

  • mostrar diffs e evidências, não apenas um parágrafo de “raciocínio”
  • exigir confirmação explícita de restrições-chave (checkboxes)
  • auditorias amostrais de aprovações e treinamento de calibração de revisores

Escalonamentos demais (fadiga de alertas)

Problema: Tudo vai para humanos; a fila vira ruído.
Mitigações:

  • melhor estratificação por risco e ferramentas com privilégio mínimo
  • melhorar trilhos de segurança para que ações de baixo impacto sejam seguras de automatizar
  • adicionar fluxos de “solicitar mais informações” para que agentes coletem evidências antes de escalonar

Injeção de prompt via saídas de ferramentas

Problema: Texto recuperado ou páginas web enganam o agente e levam a ações inseguras.
Mitigações:

  • esquemas estritos de ferramentas e listas de permissão (allowlists)
  • separação entre conteúdo não confiável e canais de instrução
  • exigir aprovação para qualquer ação derivada de fontes não confiáveis (ou exigir corroboração)

Confiar demais em auto-relatos do modelo

Problema: O agente afirma que verificou algo que não verificou.
Mitigações:

  • exigir evidência verificável por máquina (logs de ferramentas, verificadores)
  • usar ferramentas independentes de validação (motor de políticas, checagens de restrição)
  • tratar “eu verifiquei” como não confiável, a menos que esteja respaldado por artefatos

Como HITL se relaciona com feedback humano em tempo de treinamento

Feedback humano em tempo de treinamento (por exemplo, Aprendizado por Reforço a partir de Feedback Humano) melhora o comportamento geral e o alinhamento de preferências, mas não substitui HITL em tempo de execução para ações de alto impacto porque:

  • o treinamento não consegue antecipar toda política, integração e caso de borda,
  • ambientes reais mudam (novas ferramentas, novos fluxos de trabalho, novas regulações),
  • responsabilização e conformidade frequentemente exigem aprovação explícita independentemente da qualidade do modelo.

Na prática, você usa ambos:

  • Feedback em tempo de treinamento para reduzir a frequência de propostas arriscadas
  • HITL em tempo de execução para gerenciar risco residual e lidar com situações novas com segurança

Checklist prático para adicionar HITL a um agente

  • Defina níveis de risco e quais ações se encaixam em cada nível.
  • Implemente esquemas tipados de ferramentas e credenciais com privilégio mínimo.
  • Adicione um motor de políticas que possa negar, permitir ou exigir aprovação.
  • Construa um fluxo de aprovação (fila, UI, atribuição de revisores, SLAs).
  • Garanta que revisores vejam diffs, evidências e gatilhos de políticas.
  • Adicione logs de auditoria com IDs de rastreio e políticas/prompts versionados.
  • Avalie a qualidade de escalonamento e itere usando Avaliação de Agentes.
  • Faça simulações de incidentes: garanta que o escalonamento funcione quando sistemas degradam.

Resumo

Humano no loop para sistemas agênticos não é apenas “uma pessoa confere a saída”. É uma abordagem estruturada para revisão, escalonamento e trilhos de segurança que mantém o comportamento de agentes de alto impacto dentro de limites aceitáveis. Os melhores designs de HITL combinam:

  • trilhos de segurança preventivos fortes (privilégio mínimo, isolamento, aplicação de políticas),
  • escalonamento seletivo e bem roteado (baseado em risco, orientado por evidências),
  • interfaces de revisão humana de alta qualidade (diffs, proveniência, rollback),
  • e medição rigorosa (saúde da fila, taxas de override, redução de incidentes).

Quando integrado a arquiteturas de agentes e fluxos operacionais, HITL torna-se uma ponte prática entre automação poderosa e responsabilização no mundo real.