Coleta de Feedback Humano

Visão geral

A coleta de feedback humano (human feedback collection) é o processo de reunir sinais fornecidos por pessoas — como rótulos, notas, rankings, correções ou críticas por escrito — para treinar, avaliar e melhorar sistemas de IA (AI). Ela está no centro de muitos pipelines modernos de aprendizado de máquina (machine learning, ML) porque os modelos, no fim das contas, precisam se alinhar a conceitos humanos (por exemplo, “spam”, “resposta útil”, “conteúdo inseguro”) e preferências humanas (por exemplo, “a resposta A é melhor do que a resposta B”).

No contexto de Interação Humano–IA (Human–AI Interaction), a coleta de feedback não é apenas um problema de dados; é também um problema de produto e de experiência do usuário (user experience, UX): a forma como você pede feedback afeta o que você recebe, quem o fornece e quão confiável ele é. Este artigo conecta a coleta de feedback a tópicos adjacentes como UX para Produtos de IA, Explicabilidade para Usuários e Confiança, Dependência Excessiva e Calibração.

Por que o feedback humano importa

O feedback humano é usado para três finalidades centrais:

Treinamento
- Aprendizado supervisionado (supervised learning) com rótulos (por exemplo, classificar toxicidade).
- Ajuste fino (fine-tuning) de modelos com demonstrações ou correções (por exemplo, reescrever uma resposta).
- Aprendizado baseado em preferências (comum para alinhamento de modelos de linguagem grandes (large language models, LLMs)): treinar modelos para produzir saídas que as pessoas prefiram.
Avaliação
- O julgamento humano costuma ser o padrão-ouro (gold standard) para qualidades difíceis de definir com uma única métrica: utilidade, factualidade, inocuidade, empatia, clareza, estilo.
Melhoria contínua e monitoramento
- Detecção de regressões, modos de falha emergentes e mudança de distribuição do conjunto de dados.
- Alimentar novos casos extremos nos conjuntos de treino e teste.
- Apoiar refinamento iterativo do produto.

Mesmo quando você tem métricas automatizadas, o feedback humano muitas vezes é necessário para verificar se as métricas se correlacionam com valor para o usuário e segurança no mundo real.

O que conta como “feedback humano”?

O feedback humano vem em muitas formas. Escolher a forma certa é uma decisão de design com consequências estatísticas e de UX.

Rótulos (categóricos ou estruturados)

Rótulos mapeiam uma entrada (ou um par entrada–saída) para um alvo discreto ou estruturado.

Exemplos comuns:

Classificação: spam/não spam; sentimento positivo/neutro/negativo.
Multirrótulo (multi-label): o conteúdo pode ser {tóxico, sexual, autoagressão}.
Rotulagem de spans (span labeling): destacar a frase tóxica exata.
Detecção de objetos (object detection): caixas delimitadoras ao redor de pedestres.
Extração estruturada (structured extraction): extrair {data, valor, estabelecimento} de um recibo.

Rótulos são usados de forma mais direta em Aprendizado Supervisionado.

Notas (julgamentos escalares)

Notas atribuem uma pontuação numérica (por exemplo, 1–5). Elas são fáceis de solicitar, mas podem ser ruidosas e inconsistentes entre avaliadores devido a diferentes escalas pessoais.

Use notas quando:

Você precisa de um acompanhamento grosseiro de qualidade ao longo do tempo.
Comparações par a par são custosas demais.
Você consegue calibrar avaliadores e interpretar pontuações com cuidado.

Rankings e preferências par a par

Preferências pedem que pessoas escolham qual de duas (ou mais) saídas é melhor para o mesmo prompt. Isso é popular para alinhamento de LLMs porque, em geral, é mais fácil para pessoas comparar do que pontuar.

Exemplos:

“Qual resposta é mais útil?”
“Qual resumo é mais fiel ao artigo?”
“Qual resposta é mais segura?”

Dados de preferência podem treinar:

Modelos de recompensa (reward models) (veja Modelagem de Recompensa)
Métodos de otimização direta de preferências (direct preference optimization, DPO) (por exemplo, treinamento no estilo DPO), que ainda dependem de comparações de alta qualidade.

Demonstrações e correções

Em vez de julgar saídas do modelo, pessoas fornecem a saída desejada:

Escrever a resposta ideal para uma consulta do usuário.
Editar uma resposta do modelo para corrigir erros factuais.
Fornecer raciocínio passo a passo (quando apropriado e seguro).

Demonstrações são poderosas, mas caras; elas também refletem o estilo do anotador e podem incorporar vieses sistemáticos.

Críticas em texto livre e relatos de erro

Pessoas explicam o que deu errado:

“Esta resposta está incorreta porque…”
“O assistente ignorou as restrições do usuário.”
“Isto é inseguro devido a…”

Críticas podem ser convertidas em dados de treinamento (por exemplo, para modelos sensíveis a críticas), usadas para melhorar rubricas, ou usadas para criar conjuntos de avaliação direcionados.

Feedback implícito (sinais comportamentais)

Sinais implícitos incluem cliques, tempo de permanência, ações de “copiar”, abandono da conversa ou reformulação de uma pergunta. Esses sinais escalam bem, mas são confundidos:

Cliques podem refletir curiosidade, não qualidade.
Tempo de permanência pode aumentar quando o conteúdo é confuso.
Usuários podem “aceitar” uma resposta por dependência excessiva (veja Confiança, Dependência Excessiva e Calibração).

O feedback implícito é melhor tratado como supervisão fraca (weak supervision) e validado contra julgamentos humanos explícitos.

Quem fornece feedback?

Especialistas de domínio

Melhor para domínios especializados ou de alto risco (medicina, direito, segurança). Prós: acurácia e nuance. Contras: caro, escala limitada e, às vezes, menor concordância entre avaliadores em casos ambíguos.

Anotadores treinados (internos ou força de trabalho terceirizada)

Um meio-termo comum. Com bom treinamento, rubricas e garantia de qualidade (QA), anotadores treinados podem produzir rótulos consistentes em escala.

Crowdsourcing (plataformas abertas)

Rápido e escalável para tarefas mais simples, mas exige controle de qualidade forte e design cuidadoso da tarefa para evitar respostas de baixo esforço e viés demográfico.

Usuários finais “no loop”

Coletar feedback diretamente no produto (joinha para cima/para baixo, “reportar problema”, “por que isso foi ruim?”). Prós: distribuição altamente realista. Contras: amostragem enviesada (apenas alguns usuários respondem), vulnerabilidade a manipulação e verdade de referência (ground truth) pouco clara.

Um sistema robusto frequentemente combina os quatro: especialistas para padrões-ouro, anotadores treinados para escala, usuários para cobertura do mundo real e crowdsourcing para tarefas amplas de baixo risco.

Desenhando uma tarefa de feedback: do objetivo à rubrica

Um pipeline de feedback geralmente falha não porque rotular é “difícil”, mas porque a tarefa está subespecificada. Um bom design de tarefa conecta objetivos do modelo a instruções claras e testáveis.

Etapa 1: Defina o construto-alvo

Seja explícito sobre o que você quer dizer com “bom”.

Por exemplo, “utilidade” pode incluir:

Segue instruções e restrições
Correto e completo
Claro e bem estruturado
Tom apropriado

Segurança pode incluir:

Sem conteúdo proibido
Oferece alternativas seguras e encaminhamentos quando necessário
Evita facilitar danos

Quando os construtos são multidimensionais, considere coletar rótulos separados (por exemplo, utilidade, factualidade, segurança) em vez de uma nota geral.

Etapa 2: Escolha o formato de feedback

Diretrizes:

Use preferências par a par quando o julgamento for comparativo e subjetivo.
Use rótulos quando você conseguir definir classes com clareza e precisar de alvos do modelo.
Use demonstrações quando você precisa de “como responder”, não apenas “se está bom”.
Use críticas quando você estiver explorando falhas e refinando rubricas.

Etapa 3: Escreva uma rubrica com casos extremos

Uma boa rubrica inclui:

Uma definição curta por rótulo ou critério
Vários exemplos positivos e negativos
Casos de fronteira/casos extremos (“E se estiver parcialmente correto?”)
Regras de “não inferir” (“Se o texto não diz X, não assuma X”)

Etapa 4: Desenhe a UI para reduzir viés e fadiga

Detalhes de UI podem mudar rótulos de forma dramática:

Randomize a ordem esquerda/direita em tarefas par a par (para evitar viés de posição).
Oculte a identidade/versão do modelo quando possível (para evitar viés de marca).
Mantenha tarefas curtas e evite contexto desnecessário (mas forneça o que for necessário).
Ofereça opções de “Informação insuficiente” para reduzir chutes forçados.
Use micro-pausas e agrupamento (batching) sensato para reduzir efeitos de fadiga.

Essas decisões se sobrepõem fortemente a UX para Produtos de IA. Se a experiência do avaliador for confusa ou exaustiva, a qualidade dos dados cai rapidamente.

Etapa 5: Incentivos e vazão

Pagamento e incentivos moldam o comportamento:

Pagamento por peça pode incentivar velocidade em detrimento de acurácia.
Tarefas longas com baixa remuneração aumentam envios de baixo esforço.
Tarefas de especialistas frequentemente exigem compensação por carga cognitiva e responsabilidade.

Ao usar feedback de usuários finais, incentive de forma responsável: evite estimular denúncias “spam” ou campanhas coordenadas.

Controle de qualidade e confiabilidade

O feedback humano é inerentemente ruidoso — pessoas discordam, diretrizes são imperfeitas e alguns casos são ambíguos. O objetivo não é “ruído zero”, e sim incerteza mensurável e gerenciada.

Concordância entre anotadores (IAA)

A concordância entre anotadores (inter-annotator agreement, IAA) estima a consistência entre avaliadores. Medidas comuns:

Percentual de concordância (simples, mas pode ser enganoso)
Kappa de Cohen (Cohen’s kappa) / kappa de Fleiss (Fleiss’ kappa) (ajustam para concordância ao acaso)
Alfa de Krippendorff (Krippendorff’s alpha) (lida com dados faltantes e vários tipos de dados)

Exemplo: calcular o kappa de Cohen para dois anotadores.

from sklearn.metrics import cohen_kappa_score

ann1 = ["spam", "ham", "spam", "spam", "ham"]
ann2 = ["spam", "ham", "ham",  "spam", "ham"]

kappa = cohen_kappa_score(ann1, ann2)
print(kappa)

A interpretação depende do contexto. Baixa concordância pode significar:

A rubrica está pouco clara
A tarefa é genuinamente ambígua
Anotadores precisam de treinamento
Os rótulos são grossos demais ou finos demais

Itens ouro, auditorias e adjudicação

Métodos comuns de QA:

Perguntas ouro (gold questions): incluir itens com rótulos conhecidos para detectar trabalhadores de baixa qualidade.
Auditorias pontuais (spot audits): revisar amostras aleatórias de trabalho concluído.
Rotulagem dupla (double labeling): enviar o mesmo item para múltiplos anotadores.
Adjudicação (adjudication): usar um especialista ou anotador sênior para resolver discordâncias.
Sessões de calibração (calibration sessions): reuniões regulares em que anotadores rotulam juntos e discutem.

Um padrão prático é:

10–20% com rotulagem dupla para acompanhamento contínuo de concordância
Adjudicação direcionada em itens de alto impacto ou alto desacordo
Atualizações contínuas de rubrica (versionadas)

Modelagem de ruído de anotadores

Para rotulagem em larga escala, pode ajudar modelar a confiabilidade de avaliadores:

Agregação no estilo Dawid–Skene
Teoria de Resposta ao Item (Item Response Theory, IRT) para dificuldade e habilidade do avaliador

Esses métodos podem produzir melhores rótulos de consenso do que um simples voto majoritário, especialmente quando anotadores variam em expertise.

Consistência de dados de preferência

Preferências par a par também podem ser inconsistentes (não transitivas: A > B, B > C, mas C > A). Para analisar e agregar preferências, um modelo comum é o Bradley–Terry.

Esboço conceitual:

P(A beats B) = sigmoid(score(A) - score(B))

Essa é a mesma ideia básica usada ao treinar modelos de recompensa a partir de comparações.

Estratégias de amostragem: o que você rotula importa tanto quanto como você rotula

Se você só rotular itens “fáceis”, você treina e avalia a coisa errada.

Amostragem aleatória e estratificada

Amostragem aleatória representa melhor a distribuição atual dos dados.
Amostragem estratificada garante cobertura entre segmentos-chave (idiomas, geografias, tópicos, tipos de dispositivo, coortes de usuários).

Aprendizado ativo

Em Aprendizado Ativo, você seleciona itens para rotular que devem ser mais informativos:

Amostragem por incerteza (uncertainty sampling) (rotular onde o modelo está menos confiante)
Amostragem por diversidade (diversity sampling) (cobrir diferentes clusters)
Amostragem focada em erros (rotular fatias de falha conhecidas)

Exemplo de pseudocódigo:

# Select items with highest predictive entropy
import numpy as np

def entropy(probs):
    probs = np.clip(probs, 1e-9, 1.0)
    return -(probs * np.log(probs)).sum(axis=1)

# probs: N x K predicted class probabilities
idx = np.argsort(entropy(probs))[-100:]  # top-100 most uncertain
to_label = pool[idx]

O aprendizado ativo pode reduzir o custo de rotulagem, mas também pode enviesar seu conjunto de dados em direção a casos ambíguos. Muitas equipes mantêm conjuntos separados:

Um conjunto de “aquisição de treinamento” (amostrado ativamente)
Um conjunto de “avaliação representativa” (aleatório/estratificado)

Loops de feedback online e viés de seleção

Ao coletar feedback no produto:

Apenas alguns usuários fornecem feedback (viés de seleção).
Usuários podem se comportar de forma diferente quando sabem que estão sendo avaliados.
O modelo influencia quais dados são vistos (loop de feedback).

Mitigações:

Ocasionalmente amostrar interações para avaliação independentemente do feedback do usuário (“registro silencioso” com consentimento).
Usar políticas de exploração com cautela (especialmente em domínios de alto risco).
Manter um protocolo de avaliação estável e monitorar deriva de distribuição.

Como o feedback humano é usado em sistemas modernos de ML

Ajuste fino supervisionado (SFT)

Você coleta demonstrações ou “respostas ideais” e treina o modelo para imitá-las usando objetivos supervisionados padrão. Isso é comum para LLMs de seguimento de instruções (instruction-following) e para modelos específicos de tarefa.

Benefícios:

Treinamento estável e direto
Alvos de saída claros

Riscos:

Demonstrações podem não cobrir casos extremos
O modelo pode aprender o estilo específico do anotador em vez de valor geral para o usuário

Aprendizado por preferências e alinhamento

Comparações de preferências humanas são amplamente usadas para alinhar modelos generativos:

Treinar um modelo de recompensa para prever preferência humana
Otimizar a política/modelo para maximizar a recompensa prevista (ou usar métodos de otimização direta de preferências)

Mesmo que você não faça Aprendizado por Reforço, dados de preferência frequentemente impulsionam a iteração do modelo.

Principais escolhas de design de dados:

Comparar saídas de diferentes versões do modelo para encontrar melhorias.
Incluir “negativos difíceis” (respostas plausíveis, mas erradas).
Balancear critérios: utilidade vs. segurança vs. verbosidade.

Conjuntos de avaliação e gating

Conjuntos de avaliação rotulados por humanos são usados para:

Decidir se um modelo é seguro para implantar
Comparar versões do modelo
Identificar regressões em fatias críticas

Ao contrário de dados de treinamento, dados de avaliação precisam ser:

Estáveis (versionados)
Mantidos separados do treinamento
Documentados com rubricas consistentes

Exemplos práticos

Exemplo 1: Construindo um classificador de toxicidade

Objetivo: Detectar comentários tóxicos com alto recall para assédio severo.

Design de feedback:

Rótulos: {não tóxico, tóxico, assédio severo}
Adicionar anotações de spans para destacar a frase tóxica para interpretabilidade e análise de erros.

Passos de qualidade:

Rotular duplamente 15% dos itens.
Acompanhar kappa por idioma.
Adjudicar discordâncias, atualizar rubrica para gírias e xingamentos ressignificados.

Uso:

Treinar classificador com aprendizado supervisionado.
Usar spans rotulados para criar fatias de teste direcionadas (“ameaças”, “ataques a identidade”).

Exemplo 2: Dados de preferência par a par para um chatbot de suporte ao cliente

Objetivo: Melhorar a utilidade das respostas mantendo conformidade com políticas.

Tarefa:

Mostrar a pergunta do usuário e duas respostas candidatas (A/B).
Perguntar: “Qual resposta é melhor no geral?” além de marcações por critério:
- Segue a política
- Correção
- Completude
- Tom

Por que isso funciona:

Escolhas par a par são mais rápidas e mais consistentes do que notas 1–5.
Marcações por critério ajudam a diagnosticar por que A venceu B.

Notas operacionais:

Randomizar esquerda/direita.
Ocultar nomes de versões do modelo.
Adicionar “empate / ambas ruins / informação insuficiente” para reduzir erros forçados.

Uso:

Treinar modelo de preferências / otimizar respostas.
Usar marcações por critério para construir testes de regressão direcionados.

Exemplo 3: Feedback no produto para um recurso de sumarização

Objetivo: Detectar quando resumos são enganosos.

Coleta:

“Este resumo estava correto?” (Sim/Não/Não tenho certeza)
Opcional: destacar a frase incorreta e fornecer uma correção

Riscos:

Muitos usuários não vão responder a menos que algo esteja obviamente errado.
Usuários podem não ler a fonte e podem confiar demais no resumo.

Mitigações:

Ocasionalmente solicitar uma checagem rápida com fricção mínima.
Usar um conjunto de avaliação separado rotulado por especialistas para acurácia.
Adicionar sinais de UX sobre incerteza (relacionado a Confiança, Dependência Excessiva e Calibração).

Ética, segurança e governança

A coleta de feedback humano pode causar danos se for conduzida de forma descuidada.

Viés e representatividade

Pools de anotadores não são neutros. Riscos incluem:

Distorções demográficas causando rótulos enviesados (por exemplo, dialeto classificado como “tóxico”)
Diferenças culturais em polidez ou ofensividade
Baixa cobertura de idiomas ou contextos minoritários

Mitigações:

Pools de anotadores diversos e rubricas sensíveis a localidade
Avaliação por fatias entre demografias e idiomas
Documentar conjuntos de dados (por exemplo, documentação no estilo “datasheets”)
Incluir opções de “não é possível determinar” para reduzir chutes

Privacidade e consentimento

Se você rotula dados de usuários, você está lidando com informações sensíveis.

Minimizar a coleta de dados
Redigir (redact) ou mascarar dados pessoais quando possível
Impor controles de acesso rigorosos e limites de retenção
Considerar métodos de preservação de privacidade como Privacidade Diferencial quando aplicável

Bem-estar de anotadores

Moderação de conteúdo e rotulagem de segurança podem expor anotadores a material perturbador. Boas práticas:

Avisos de conteúdo e opção de recusa
Rodízio e limites de tempo
Recursos de apoio à saúde mental
Ferramentas que desfocam imagens por padrão ou revelam conteúdo sob demanda

Segurança e manipulação adversarial

Canais de feedback podem ser atacados:

Brigading (avaliações negativas coordenadas)
Injeção de prompt (prompt injection) embutida em itens mostrados a anotadores
Envenenamento de dados (data poisoning) via “correções” enviadas por usuários

Mitigações:

Limites de taxa e sistemas de reputação para feedback de usuários
Revisão humana para atualizações de alto impacto
Separar fluxos de feedback “confiáveis” e “não confiáveis”

Boas práticas operacionais (checklist)

Design de dados

Definir o que “bom” significa como critérios mensuráveis.
Escolher rótulo vs nota vs preferência de forma intencional.
Incluir casos extremos e resultados “desconhecido/informação insuficiente”.
Garantir que os dados de avaliação sejam representativos e mantidos separados.

Processo de anotação

Treinar anotadores; conduzir sessões de calibração.
Versionar rubricas e registrar mudanças.
Rotular duplamente um subconjunto e acompanhar concordância ao longo do tempo.
Adjudicar discordâncias e retroalimentar insights para atualizações de rubrica.

Ferramentas e governança

Rastrear proveniência: quem rotulou o quê, quando, sob qual versão de rubrica.
Armazenamento seguro, controle de acesso e políticas de retenção.
Monitorar deriva de rótulos e deriva do modelo após implantação.

Integração com o produto

Tornar o feedback fácil, mas não enganoso.
Evitar interfaces que incentivem dependência excessiva ou julgamentos enviesados (veja Explicabilidade para Usuários).
Tratar sinais implícitos como feedback fraco, a menos que sejam validados.

Perspectiva final

A coleta de feedback humano é uma forma disciplinada de transformar julgamento humano em uma entrada de engenharia. Os pipelines mais fortes tratam feedback como um sistema de medição: construtos claramente definidos, amostragem cuidadosa, procedimentos de anotação controlados e monitoramento contínuo de qualidade. Quando bem feita, ela viabiliza não apenas modelos melhores, mas implantação mais segura, avaliação mais confiável e um ciclo mais saudável de interação humano–IA.