Avaliação Humana

O que “Avaliação Humana” Significa (e Quando Você Precisa Dela)

Avaliação humana é qualquer protocolo de avaliação em que pessoas julgam a qualidade das saídas de um modelo — muitas vezes porque métricas automatizadas são incompletas, fáceis de “burlar” (gameable) ou pouco alinhadas ao valor real para o usuário. Ela é amplamente usada para:

  • Geração de linguagem natural (resumo, tradução, diálogo, seguimento de instruções)
  • Geração multimodal (legendas de imagens, texto-para-imagem, vídeo)
  • Segurança e conformidade com políticas (toxicidade, instruções nocivas, privacidade)
  • Qualidade de produto ponta a ponta (utilidade, confiança, UX)

A avaliação humana fica ao lado de métricas automáticas offline e do julgamento por modelos. No conjunto mais amplo de ferramentas de avaliação, ela costuma ser a checagem da “última milha” para qualidades difíceis de formalizar. Ela também traz riscos únicos: julgamentos humanos são ruidosos, caros e sistematicamente enviesados, a menos que sejam cuidadosamente projetados.

Tópicos relacionados: Avaliação Offline, Construção de Benchmarks, Reprodutibilidade & Significância Estatística, LLM-como-Juiz, Lei de Goodhart em Métricas.

Formatos Principais: Notas vs Comparações em Pares

A avaliação humana normalmente usa notas absolutas (pontuar cada saída) ou julgamentos comparativos (escolher qual é melhor). Cada um tem propriedades estatísticas e práticas diferentes.

1) Notas Humanas (Julgamentos Absolutos)

Avaliadores atribuem uma pontuação em uma escala discreta ou contínua, frequentemente por critério.

Escalas comuns:

  • Likert (Likert) (ex.: 1–5 para concordância ou qualidade)
  • Níveis ordinais de qualidade (ex.: Ruim / OK / Bom / Excelente)
  • Controles deslizantes contínuos (0–100)

Critérios típicos para saídas de LLMs (large language models):

  • Correção / factualidade
  • Relevância
  • Completude
  • Clareza
  • Estilo / tom
  • Segurança / conformidade com políticas

Exemplo (rubrica de resumo):

  • Factualidade (1–5): O resumo introduz erros ou afirmações não sustentadas?
  • Cobertura (1–5): Ele captura pontos-chave da fonte?
  • Concisão (1–5): Ele evita detalhes desnecessários?

Pontos fortes

  • Eficiente ao avaliar muitos sistemas de forma independente
  • Funciona bem quando você precisa de limiares absolutos (ex.: “deve ser ≥4/5 em factualidade”)

Pontos fracos

  • Diferentes avaliadores interpretam escalas de formas distintas (viés de uso de escala)
  • É mais difícil manter consistência do tipo “o que é um 4 vs um 5?” ao longo do tempo (deriva do avaliador)
  • Suscetível a ancoragem e efeitos de contexto (o que mais o avaliador viu)

2) Comparações em Pares (Julgamentos Relativos)

Avaliadores veem duas saídas (A e B) para a mesma entrada e escolhem:

  • A é melhor, B é melhor, ou empate (às vezes)
  • Ocasionalmente com uma opção de intensidade de preferência (ligeiramente vs fortemente)

Exemplo (utilidade de assistente de chat):

Prompt: “Write an email asking to reschedule a meeting.”

Output A: concise, polite email
Output B: longer email with more context
Question: Which response would you prefer to send?

Pontos fortes

  • Frequentemente mais confiável do que notas, porque humanos são melhores em comparar do que em calibrar uma escala absoluta
  • Reduz a variância entre avaliadores devido à interpretação idiossincrática de pontuações
  • Se encaixa naturalmente com aprendizado por preferências (preference learning) (ex.: pipelines no estilo RLHF)

Pontos fracos

  • Exige mais anotação por decisão se você quiser um ranking global entre muitos modelos
  • Pode ser influenciado por traços superficiais (ex.: verbosidade) a menos que isso seja controlado
  • A análise estatística requer um modelo de preferência ou uma agregação cuidadosa

3) Variantes de Ranqueamento e Torneio

Em vez de comparar apenas dois, avaliadores podem ranquear k saídas (ranqueamento k-way), ou o sistema pode executar chaves em estilo torneio para reduzir comparações.

  • Ranqueamento k-way pode ser mais eficiente em anotação, mas é cognitivamente mais difícil.
  • Torneios (como atualizações Elo) podem escalar para muitos modelos, mas podem introduzir artefatos de chave/ordenação.

Fundamentos Teóricos (O que Você Está Estimando)

A avaliação humana tenta estimar um conceito latente como “utilidade” ou “qualidade”, que não é diretamente observável. Isso motiva um cuidado com teoria de mensuração.

Notas como Medidas Ruidosas

Se um avaliador dá 4/5 para “utilidade”, você pode tratar isso como uma observação ruidosa de uma variável latente contínua. Problemas surgem porque:

  • O mapeamento de qualidade latente → número escolhido não é consistente entre avaliadores
  • A escala é ordinal na prática (diferenças entre 1→2 e 4→5 podem não ser iguais)

Por isso médias de pontuações Likert podem ser enganosas sem calibração e checagens de confiabilidade.

Preferências em Pares e Modelos de Preferência

Comparações em pares se conectam naturalmente a modelos probabilísticos de preferência:

  • Modelo Bradley–Terry (Bradley–Terry model): cada sistema tem um escore de “habilidade”; a probabilidade de A vencer B depende da diferença de escores.
  • Modelo Thurstone–Mosteller (Thurstone–Mosteller model): similar, frequentemente com suposições Gaussianas.
  • Elo / TrueSkill: variantes de atualização online usadas em torneios.

Esses modelos ajudam a converter muitos julgamentos em pares ruidosos em:

  • Um ranking global
  • Estimativas de incerteza
  • Testes estatísticos de diferenças

Exemplo de formato de dados para julgamentos em pares

{"prompt_id": 17, "winner": "A", "loser": "B", "rater_id": 203}
{"prompt_id": 17, "winner": "B", "loser": "C", "rater_id": 204}
{"prompt_id": 18, "winner": "A", "loser": "C", "rater_id": 203}

Esboço simples de ajuste Bradley–Terry (ilustrativo)

# Pseudocode: fit "skill" parameters s[model]
# so that P(i beats j) = exp(s[i]) / (exp(s[i]) + exp(s[j]))

wins = {(i,j): count_i_beats_j}
skills = initialize_zero()

for step in range(num_steps):
    grad = {m: 0.0 for m in models}
    for (i,j), w in wins.items():
        p = exp(skills[i]) / (exp(skills[i]) + exp(skills[j]))
        grad[i] += (w - total(i,j)*p)
        grad[j] -= (w - total(i,j)*p)
    update(skills, grad)

Na prática, você usaria uma biblioteca, mas a ideia central é: votos em pares se traduzem em um escore calibrado com incerteza em vez de taxas brutas de vitória.

Design Prático: Como Conduzir Bem uma Avaliação Humana

Passo 1: Defina o Construto-Alvo (e o Que Você Não Está Medindo)

Seja explícito sobre o que “qualidade” significa para sua tarefa:

  • Para QA factual: “correção” pode dominar.
  • Para escrita criativa: “engajamento” ou “voz” podem importar.
  • Para suporte ao cliente: “conformidade com políticas” e “acionabilidade” podem ser críticos.

Evite critérios sobrecarregados como “qualidade geral”, a menos que você saiba que quer um sinal holístico de preferência.

Isso se conecta a Construção de Benchmarks: se seu construto for vago, a mensuração será ruidosa e fácil de interpretar de forma equivocada.

Passo 2: Escolha os Avaliadores Certos (Multidão vs Especialista vs Usuários)

  • Avaliadores via crowd (crowdsourced raters): escaláveis e rápidos; melhores para qualidades superficiais e preferência ampla; risco de baixa expertise no domínio.
  • Especialistas do domínio (médicos, advogados, analistas de segurança): caros, mais lentos; necessários para correção especializada e julgamentos de alto impacto.
  • Usuários reais no contexto do produto: maior validade externa; mais difícil de controlar; frequentemente combinado com experimentos online.

Para avaliação de produto ponta a ponta, veja também Avaliação de Apps com LLM.

Passo 3: Escreva Instruções e Rubricas Claras

Boas rubricas:

  • Incluem exemplos positivos e negativos
  • Esclarecem o que fazer quando as duas saídas são ruins (permitir empates ou “ambas inaceitáveis”)
  • Especificam restrições que não podem falhar (ex.: “Qualquer citação alucinada → factualidade ≤2”)

Exemplo de trecho de rubrica (factualidade):

  • 5: Sem erros factuais; sustentado pela fonte.
  • 3: Pequenas imprecisões que não mudam a alegação principal.
  • 1: Grandes alucinações ou contradições com a fonte.

Passo 4: Controle a Apresentação (Randomização e Cegamento)

Para reduzir viés:

  • Oculte (blind) do avaliador a identidade do modelo e a condição experimental.
  • Randomize:
    • Ordem das saídas (A/B)
    • Ordem dos prompts
    • Qual modelo aparece como A
  • Mantenha formatação consistente (mesma fonte, quebras de linha, sem metadados).

Para LLMs, a apresentação é especialmente influente porque pistas de estilo (tamanho, confiança) afetam fortemente a qualidade percebida.

Passo 5: Adicione Controles de Qualidade

Ferramentas comuns:

  • Perguntas gold (gold questions) (itens com resposta conhecida)
  • Checagens de atenção (ex.: “Selecione a opção 2 para esta pergunta”)
  • Testes de qualificação de avaliadores
  • Filtros baseados em tempo (sinalizar respostas extremamente rápidas)
  • Monitoramento contínuo de deriva do avaliador

Cuidado: perguntas gold podem enviesar a avaliação para o que é fácil de rotular e podem penalizar discordâncias legítimas em tarefas subjetivas.

Passo 6: Planeje a Estatística com Antecedência

Decida previamente:

  • Tamanho amostral (quantos prompts, quantas avaliações por prompt)
  • Métrica primária (nota média, taxa de vitória, escore Bradley–Terry)
  • Como computar intervalos de confiança e significância

Avaliação humana costuma ter alta variância; ela se beneficia da disciplina descrita em Reprodutibilidade & Significância Estatística.

Vieses Comuns em Avaliação Humana (e Como Mitigá-los)

Julgamentos humanos não são apenas ruidosos — eles são sistematicamente enviesados. Abaixo estão vieses recorrentes em avaliações de IA e mitigações práticas.

Ancoragem e Efeitos de Contexto

O que acontece: A nota de um avaliador é influenciada por exemplos anteriores. Se ele primeiro vê uma saída muito forte, saídas posteriores podem receber notas mais severas.

Mitigações

  • Randomizar a ordem de prompts e saídas
  • Usar comparações em pares em vez de notas absolutas
  • Fornecer exemplos de calibração no início

Efeitos de Ordem (Primazia/Recência)

O que acontece: Em comparações A/B, o primeiro ou o segundo item pode ser favorecido por padrões de atenção.

Mitigações

  • Contrabalancear a ordem A/B (cada modelo aparece com a mesma frequência como A e B)
  • Randomizar a ordem dentro de cada avaliador

Efeito Halo

O que acontece: Um atributo forte (ex.: escrita bem polida) aumenta notas em atributos não relacionados (ex.: correção).

Exemplo: Uma resposta fluente, mas errada, recebe alta “qualidade geral”.

Mitigações

  • Separar critérios e solicitá-los de forma independente
  • Adicionar instruções explícitas: “Não inferir correção a partir de confiança ou tom.”
  • Incluir exemplos adversariais em que fluência e correção divergem

Viés de Uso de Escala (Leniente/Severo)

O que acontece: Alguns avaliadores evitam extremos; outros usam 1 e 5 em excesso. Notas médias passam a depender do avaliador.

Mitigações

  • Preferir comparações em pares para comparações globais
  • Normalizar por avaliador (às vezes) ou usar modelos de efeitos mistos
  • Fornecer exemplos ancorados de rubrica para cada ponto da escala

Viés de Tendência Central

O que acontece: Avaliadores usam demais a opção do meio, especialmente quando estão incertos.

Mitigações

  • Usar decisões em pares de escolha forçada quando apropriado
  • Oferecer “não é possível julgar” apenas quando realmente necessário, e acompanhar sua taxa

Fadiga e “Satisficing”

O que acontece: Com o tempo, avaliadores prestam menos atenção, escolhem mais rápido e recorrem a atalhos (ex.: escolher a resposta mais curta).

Mitigações

  • Tarefas mais curtas, pausas, limitar tamanhos de lote
  • Monitorar tempo por item e acerto em perguntas gold
  • Rotacionar pools de avaliadores e detectar deriva

Efeitos de Enquadramento e Viés de Instrução

O que acontece: Pequenas mudanças de redação alteram resultados (“útil” vs “preciso” vs “inofensivo”). Avaliadores otimizam o que você pede.

Mitigações

  • Pilotar múltiplas variantes de instrução
  • Priorizar critérios com clareza (ex.: “Correção é mais importante do que verbosidade.”)
  • Alinhar com seu objetivo real para evitar “gaming” de métricas (ver Lei de Goodhart em Métricas)

Viés Cultural e de Idioma

O que acontece: Preferências por tom, polidez, franqueza, humor e formalidade variam entre culturas e demografias.

Mitigações

  • Combinar a demografia dos avaliadores com a dos usuários-alvo
  • Estratificar a análise por localidade/idioma quando relevante
  • Usar rubricas e exemplos localizados

Vieses Relacionados à Segurança (Normalização do Dano)

O que acontece: Exposição repetida a conteúdo tóxico pode dessensibilizar avaliadores, mudando o que eles consideram “inseguro”.

Mitigações

  • Fornecer definições claras de segurança e caminhos de escalonamento
  • Rotacionar avaliadores, oferecer recursos de apoio, minimizar exposição
  • Considerar revisão por especialista para categorias de alto risco (ver Avaliação de Segurança)

“Viés de Verbosidade” na Avaliação de Saídas de LLM

O que acontece: Respostas mais longas frequentemente são avaliadas como mais úteis, mesmo quando adicionam preenchimento ou escondem erros.

Mitigações

  • Adicionar concisão como critério ou restrição explícita
  • Fornecer comparações normalizadas por comprimento (ex.: “prefira a melhor resposta que seja concisa”)
  • Usar métricas de sucesso específicas da tarefa quando possível (resolveu o problema do usuário?)

Confiabilidade: Medindo Concordância e Consistência

A avaliação humana deve reportar não apenas pontuações, mas também o quão confiáveis essas pontuações são.

Confiabilidade Entre Avaliadores (IRR — inter-rater reliability)

Medidas comuns:

  • κ de Cohen (Cohen’s κ) (dois avaliadores, categórica)
  • κ de Fleiss (Fleiss’ κ) (múltiplos avaliadores, categórica)
  • α de Krippendorff (Krippendorff’s α) (flexível: dados faltantes, diferentes níveis de mensuração)
  • Correlação / ICC (Correlation / ICC) (para avaliações “quase contínuas”)

A interpretação depende da tarefa: tarefas subjetivas naturalmente têm menor concordância do que rotulagem factual. IRR baixo pode significar:

  • A rubrica é pouco clara
  • A tarefa é inerentemente ambígua
  • Avaliadores não são qualificados
  • Diferenças entre modelos são sutis demais para medir

Consistência Intra-avaliador

Teste se o mesmo avaliador faz julgamentos consistentes ao longo do tempo:

  • Repetir um pequeno subconjunto de itens
  • Verificar contradições ou alta variância

Calibrando Avaliadores

Uma abordagem prática:

  1. Fase de treinamento com feedback usando um pequeno conjunto gold
  2. Limiar de qualificação
  3. Itens periódicos de recalibração durante a tarefa

Agregação e Relato: Transformando Julgamentos Humanos em Resultados

Para Notas

Relato típico:

  • Média e erro padrão por modelo
  • Gráficos de distribuição (não apenas a média)
  • Recorte por critério (ex.: correção vs estilo)

Atenção: fazer média de pontuações Likert ordinais é comum, mas imperfeito. Considere reportar:

  • % de saídas avaliadas como ≥4 (métrica de limiar)
  • Mediana e quantis
  • Modelos de efeitos mistos para considerar variância de avaliador e prompt

Para Comparações em Pares

Opções:

  • Taxa de vitória com intervalos de confiança (simples, mas ignora a força do oponente)
  • Escores Bradley–Terry / Elo com incerteza (frequentemente mais informativos)
  • Análise estratificada por categoria de prompt (ex.: raciocínio vs código vs criativo)

Para significância, faça bootstrap sobre prompts ou use modelos hierárquicos; veja Reprodutibilidade & Significância Estatística.

Múltiplas Comparações

Se você compara muitos modelos, p-values ingênuos vão superestimar a significância. Use:

  • Comparações primárias pré-registradas, ou
  • Correções (ex.: Holm–Bonferroni), ou
  • Reporte tamanhos de efeito com incerteza e evite um enquadramento binário de “vitórias”

Isso também se conecta a Rankings: rankings podem amplificar ruído e incentivar super-otimização para protocolos estreitos de avaliação humana.

Exemplos Práticos

Exemplo 1: Avaliando Dois Modelos de Sumarização

Objetivo: Escolher entre os Modelos A e B para uma funcionalidade de resumo de notícias.

Protocolo:

  • Amostrar 500 artigos da sua distribuição-alvo
  • Gerar resumos de ambos os modelos
  • Para cada artigo, coletar 3 julgamentos em pares sobre:
    • Preferência geral
    • Preferência de factualidade (explícita)
  • Randomizar o posicionamento A/B, ocultar a identidade do modelo
  • Ajustar Bradley–Terry para obter um escore global + IC
  • Auditar um subconjunto com revisão de especialista para regressões de factualidade

Por que comparações em pares ajudam: avaliadores podem decidir rapidamente qual resumo é melhor sem precisar de uma definição interna estável de “4/5”.

Exemplo 2: Avaliação Humana de Recusas por Segurança

Objetivo: Garantir que o assistente recuse instruções nocivas e permaneça útil para solicitações benignas.

Protocolo:

  • Curar prompts: 50% benignos, 50% violadores de política (com subcategorias)
  • Avaliadores rotulam:
    • “Em conformidade com a política?” (sim/não)
    • “Apropriadamente útil?” (1–5)
  • Incluir itens gold e regras de escalonamento
  • Reportar taxa de conformidade com intervalos de confiança e analisar por categoria de dano

Conecte isso a práticas mais amplas de Avaliação de Segurança; avaliação de segurança frequentemente precisa de suporte especializado para avaliadores e design cuidadoso de taxonomias.

Exemplo 3: Avaliação Humana Voltada a Produto (Assistente RAG)

Objetivo: Avaliar se as respostas estão fundamentadas em documentos recuperados.

Protocolo:

  • Mostrar prompt, trechos recuperados e a resposta do modelo
  • Pedir que avaliadores marquem:
    • “Sustentado por evidência?” (sim/parcialmente/não)
    • “Faltam citações-chave?” (sim/não)
  • Incluir uma opção “informação insuficiente” se a recuperação não contiver a resposta
  • Estratificar por tipo de consulta (factual vs procedural)

Isso se sobrepõe à Avaliação de Apps com LLM, em que a revisão humana frequentemente valida fundamentação e utilidade.

Avaliação Humana em Pipelines Modernos de Desenvolvimento de LLM

Julgamentos humanos não são usados apenas para reportar — eles são usados para treinar:

  • Dados de ajuste fino supervisionado (supervised fine-tuning): humanos escrevem ou editam respostas “ideais”
  • Conjuntos de dados de preferência (preference datasets): humanos escolhem respostas melhores (em pares)
  • Modelagem de recompensa e RLHF/RLAIF: preferências treinam um modelo de recompensa que orienta a otimização de política

Como o treinamento pode superajustar (overfit) ao seu setup de avaliação, assegure que seu protocolo de avaliação não seja trivialmente “aprendível” nem estreito demais — outra instância de preocupações relacionadas à Lei de Goodhart em Métricas e à Avaliação Robusta.

Armadilhas Comuns e Como Evitá-las

  • Confundir estilo com correção: separar critérios; adicionar checagens factuais.
  • Confiar demais em avaliações humanas pequenas: planejar para variância; reportar incerteza.
  • Avaliar em prompts não representativos: amostrar do tráfego real; evitar prompts “de brinquedo”.
  • Conjuntos de avaliação vazados: prompts podem estar nos dados de treino; veja Contaminação do Conjunto de Teste.
  • Sem cegamento: até metadados sutis podem enviesar avaliadores.
  • Super-otimização para a rubrica: atualizar rubricas periodicamente e validar contra resultados do mundo real.

Quando Usar Humanos vs Alternativas

A avaliação humana é valiosa quando:

  • O construto é subjetivo (utilidade, preferência, estilo)
  • Métricas automatizadas são pouco confiáveis ou fáceis de “burlar”
  • Você precisa de uma checagem de “verdade fundamental” para qualidade ponta a ponta

Mas ela pode ser complementada por:

  • Métricas automáticas (testes de regressão rápidos)
  • Avaliadores baseados em modelo como LLM-como-Juiz para escala (com calibração e auditorias humanas periódicas)
  • Experimentos online para impacto real em usuários

Checklist de Boas Práticas

  • Defina o construto e os critérios de sucesso com precisão
  • Escolha entre notas vs comparações em pares (frequentemente em pares para preferência)
  • Use rubricas claras com exemplos ancorados
  • Oculte e randomize; contrabalanceie a ordem A/B
  • Use controles de qualidade (itens gold, qualificação, monitoramento de deriva)
  • Meça confiabilidade (IRR, consistência intra-avaliador)
  • Planeje estatística previamente; reporte incerteza e tamanhos de efeito
  • Analise fontes de viés (verbosidade, halo, diferenças culturais)
  • Valide contra uso real e atualize protocolos ao longo do tempo

A avaliação humana é poderosa porque mede o que usuários realmente percebem — mas esse poder só se sustenta se você tratá-la como um problema sério de mensuração, e não como uma checagem informal de “impressão”.