Coleta de Feedback Humano
Visão geral
A coleta de feedback humano (human feedback collection) é o processo de reunir sinais fornecidos por pessoas — como rótulos, notas, rankings, correções ou críticas por escrito — para treinar, avaliar e melhorar sistemas de IA (AI). Ela está no centro de muitos pipelines modernos de aprendizado de máquina (machine learning, ML) porque os modelos, no fim das contas, precisam se alinhar a conceitos humanos (por exemplo, “spam”, “resposta útil”, “conteúdo inseguro”) e preferências humanas (por exemplo, “a resposta A é melhor do que a resposta B”).
No contexto de Interação Humano–IA (Human–AI Interaction), a coleta de feedback não é apenas um problema de dados; é também um problema de produto e de experiência do usuário (user experience, UX): a forma como você pede feedback afeta o que você recebe, quem o fornece e quão confiável ele é. Este artigo conecta a coleta de feedback a tópicos adjacentes como UX para Produtos de IA, Explicabilidade para Usuários e Confiança, Dependência Excessiva e Calibração.
Por que o feedback humano importa
O feedback humano é usado para três finalidades centrais:
Treinamento
- Aprendizado supervisionado (supervised learning) com rótulos (por exemplo, classificar toxicidade).
- Ajuste fino (fine-tuning) de modelos com demonstrações ou correções (por exemplo, reescrever uma resposta).
- Aprendizado baseado em preferências (comum para alinhamento de modelos de linguagem grandes (large language models, LLMs)): treinar modelos para produzir saídas que as pessoas prefiram.
Avaliação
- O julgamento humano costuma ser o padrão-ouro (gold standard) para qualidades difíceis de definir com uma única métrica: utilidade, factualidade, inocuidade, empatia, clareza, estilo.
Melhoria contínua e monitoramento
- Detecção de regressões, modos de falha emergentes e mudança de distribuição do conjunto de dados.
- Alimentar novos casos extremos nos conjuntos de treino e teste.
- Apoiar refinamento iterativo do produto.
Mesmo quando você tem métricas automatizadas, o feedback humano muitas vezes é necessário para verificar se as métricas se correlacionam com valor para o usuário e segurança no mundo real.
O que conta como “feedback humano”?
O feedback humano vem em muitas formas. Escolher a forma certa é uma decisão de design com consequências estatísticas e de UX.
Rótulos (categóricos ou estruturados)
Rótulos mapeiam uma entrada (ou um par entrada–saída) para um alvo discreto ou estruturado.
Exemplos comuns:
- Classificação: spam/não spam; sentimento positivo/neutro/negativo.
- Multirrótulo (multi-label): o conteúdo pode ser {tóxico, sexual, autoagressão}.
- Rotulagem de spans (span labeling): destacar a frase tóxica exata.
- Detecção de objetos (object detection): caixas delimitadoras ao redor de pedestres.
- Extração estruturada (structured extraction): extrair {data, valor, estabelecimento} de um recibo.
Rótulos são usados de forma mais direta em Aprendizado Supervisionado.
Notas (julgamentos escalares)
Notas atribuem uma pontuação numérica (por exemplo, 1–5). Elas são fáceis de solicitar, mas podem ser ruidosas e inconsistentes entre avaliadores devido a diferentes escalas pessoais.
Use notas quando:
- Você precisa de um acompanhamento grosseiro de qualidade ao longo do tempo.
- Comparações par a par são custosas demais.
- Você consegue calibrar avaliadores e interpretar pontuações com cuidado.
Rankings e preferências par a par
Preferências pedem que pessoas escolham qual de duas (ou mais) saídas é melhor para o mesmo prompt. Isso é popular para alinhamento de LLMs porque, em geral, é mais fácil para pessoas comparar do que pontuar.
Exemplos:
- “Qual resposta é mais útil?”
- “Qual resumo é mais fiel ao artigo?”
- “Qual resposta é mais segura?”
Dados de preferência podem treinar:
- Modelos de recompensa (reward models) (veja Modelagem de Recompensa)
- Métodos de otimização direta de preferências (direct preference optimization, DPO) (por exemplo, treinamento no estilo DPO), que ainda dependem de comparações de alta qualidade.
Demonstrações e correções
Em vez de julgar saídas do modelo, pessoas fornecem a saída desejada:
- Escrever a resposta ideal para uma consulta do usuário.
- Editar uma resposta do modelo para corrigir erros factuais.
- Fornecer raciocínio passo a passo (quando apropriado e seguro).
Demonstrações são poderosas, mas caras; elas também refletem o estilo do anotador e podem incorporar vieses sistemáticos.
Críticas em texto livre e relatos de erro
Pessoas explicam o que deu errado:
- “Esta resposta está incorreta porque…”
- “O assistente ignorou as restrições do usuário.”
- “Isto é inseguro devido a…”
Críticas podem ser convertidas em dados de treinamento (por exemplo, para modelos sensíveis a críticas), usadas para melhorar rubricas, ou usadas para criar conjuntos de avaliação direcionados.
Feedback implícito (sinais comportamentais)
Sinais implícitos incluem cliques, tempo de permanência, ações de “copiar”, abandono da conversa ou reformulação de uma pergunta. Esses sinais escalam bem, mas são confundidos:
- Cliques podem refletir curiosidade, não qualidade.
- Tempo de permanência pode aumentar quando o conteúdo é confuso.
- Usuários podem “aceitar” uma resposta por dependência excessiva (veja Confiança, Dependência Excessiva e Calibração).
O feedback implícito é melhor tratado como supervisão fraca (weak supervision) e validado contra julgamentos humanos explícitos.
Quem fornece feedback?
Especialistas de domínio
Melhor para domínios especializados ou de alto risco (medicina, direito, segurança). Prós: acurácia e nuance. Contras: caro, escala limitada e, às vezes, menor concordância entre avaliadores em casos ambíguos.
Anotadores treinados (internos ou força de trabalho terceirizada)
Um meio-termo comum. Com bom treinamento, rubricas e garantia de qualidade (QA), anotadores treinados podem produzir rótulos consistentes em escala.
Crowdsourcing (plataformas abertas)
Rápido e escalável para tarefas mais simples, mas exige controle de qualidade forte e design cuidadoso da tarefa para evitar respostas de baixo esforço e viés demográfico.
Usuários finais “no loop”
Coletar feedback diretamente no produto (joinha para cima/para baixo, “reportar problema”, “por que isso foi ruim?”). Prós: distribuição altamente realista. Contras: amostragem enviesada (apenas alguns usuários respondem), vulnerabilidade a manipulação e verdade de referência (ground truth) pouco clara.
Um sistema robusto frequentemente combina os quatro: especialistas para padrões-ouro, anotadores treinados para escala, usuários para cobertura do mundo real e crowdsourcing para tarefas amplas de baixo risco.
Desenhando uma tarefa de feedback: do objetivo à rubrica
Um pipeline de feedback geralmente falha não porque rotular é “difícil”, mas porque a tarefa está subespecificada. Um bom design de tarefa conecta objetivos do modelo a instruções claras e testáveis.
Etapa 1: Defina o construto-alvo
Seja explícito sobre o que você quer dizer com “bom”.
Por exemplo, “utilidade” pode incluir:
- Segue instruções e restrições
- Correto e completo
- Claro e bem estruturado
- Tom apropriado
Segurança pode incluir:
- Sem conteúdo proibido
- Oferece alternativas seguras e encaminhamentos quando necessário
- Evita facilitar danos
Quando os construtos são multidimensionais, considere coletar rótulos separados (por exemplo, utilidade, factualidade, segurança) em vez de uma nota geral.
Etapa 2: Escolha o formato de feedback
Diretrizes:
- Use preferências par a par quando o julgamento for comparativo e subjetivo.
- Use rótulos quando você conseguir definir classes com clareza e precisar de alvos do modelo.
- Use demonstrações quando você precisa de “como responder”, não apenas “se está bom”.
- Use críticas quando você estiver explorando falhas e refinando rubricas.
Etapa 3: Escreva uma rubrica com casos extremos
Uma boa rubrica inclui:
- Uma definição curta por rótulo ou critério
- Vários exemplos positivos e negativos
- Casos de fronteira/casos extremos (“E se estiver parcialmente correto?”)
- Regras de “não inferir” (“Se o texto não diz X, não assuma X”)
Etapa 4: Desenhe a UI para reduzir viés e fadiga
Detalhes de UI podem mudar rótulos de forma dramática:
- Randomize a ordem esquerda/direita em tarefas par a par (para evitar viés de posição).
- Oculte a identidade/versão do modelo quando possível (para evitar viés de marca).
- Mantenha tarefas curtas e evite contexto desnecessário (mas forneça o que for necessário).
- Ofereça opções de “Informação insuficiente” para reduzir chutes forçados.
- Use micro-pausas e agrupamento (batching) sensato para reduzir efeitos de fadiga.
Essas decisões se sobrepõem fortemente a UX para Produtos de IA. Se a experiência do avaliador for confusa ou exaustiva, a qualidade dos dados cai rapidamente.
Etapa 5: Incentivos e vazão
Pagamento e incentivos moldam o comportamento:
- Pagamento por peça pode incentivar velocidade em detrimento de acurácia.
- Tarefas longas com baixa remuneração aumentam envios de baixo esforço.
- Tarefas de especialistas frequentemente exigem compensação por carga cognitiva e responsabilidade.
Ao usar feedback de usuários finais, incentive de forma responsável: evite estimular denúncias “spam” ou campanhas coordenadas.
Controle de qualidade e confiabilidade
O feedback humano é inerentemente ruidoso — pessoas discordam, diretrizes são imperfeitas e alguns casos são ambíguos. O objetivo não é “ruído zero”, e sim incerteza mensurável e gerenciada.
Concordância entre anotadores (IAA)
A concordância entre anotadores (inter-annotator agreement, IAA) estima a consistência entre avaliadores. Medidas comuns:
- Percentual de concordância (simples, mas pode ser enganoso)
- Kappa de Cohen (Cohen’s kappa) / kappa de Fleiss (Fleiss’ kappa) (ajustam para concordância ao acaso)
- Alfa de Krippendorff (Krippendorff’s alpha) (lida com dados faltantes e vários tipos de dados)
Exemplo: calcular o kappa de Cohen para dois anotadores.
from sklearn.metrics import cohen_kappa_score
ann1 = ["spam", "ham", "spam", "spam", "ham"]
ann2 = ["spam", "ham", "ham", "spam", "ham"]
kappa = cohen_kappa_score(ann1, ann2)
print(kappa)
A interpretação depende do contexto. Baixa concordância pode significar:
- A rubrica está pouco clara
- A tarefa é genuinamente ambígua
- Anotadores precisam de treinamento
- Os rótulos são grossos demais ou finos demais
Itens ouro, auditorias e adjudicação
Métodos comuns de QA:
- Perguntas ouro (gold questions): incluir itens com rótulos conhecidos para detectar trabalhadores de baixa qualidade.
- Auditorias pontuais (spot audits): revisar amostras aleatórias de trabalho concluído.
- Rotulagem dupla (double labeling): enviar o mesmo item para múltiplos anotadores.
- Adjudicação (adjudication): usar um especialista ou anotador sênior para resolver discordâncias.
- Sessões de calibração (calibration sessions): reuniões regulares em que anotadores rotulam juntos e discutem.
Um padrão prático é:
- 10–20% com rotulagem dupla para acompanhamento contínuo de concordância
- Adjudicação direcionada em itens de alto impacto ou alto desacordo
- Atualizações contínuas de rubrica (versionadas)
Modelagem de ruído de anotadores
Para rotulagem em larga escala, pode ajudar modelar a confiabilidade de avaliadores:
- Agregação no estilo Dawid–Skene
- Teoria de Resposta ao Item (Item Response Theory, IRT) para dificuldade e habilidade do avaliador
Esses métodos podem produzir melhores rótulos de consenso do que um simples voto majoritário, especialmente quando anotadores variam em expertise.
Consistência de dados de preferência
Preferências par a par também podem ser inconsistentes (não transitivas: A > B, B > C, mas C > A). Para analisar e agregar preferências, um modelo comum é o Bradley–Terry.
Esboço conceitual:
P(A beats B) = sigmoid(score(A) - score(B))
Essa é a mesma ideia básica usada ao treinar modelos de recompensa a partir de comparações.
Estratégias de amostragem: o que você rotula importa tanto quanto como você rotula
Se você só rotular itens “fáceis”, você treina e avalia a coisa errada.
Amostragem aleatória e estratificada
- Amostragem aleatória representa melhor a distribuição atual dos dados.
- Amostragem estratificada garante cobertura entre segmentos-chave (idiomas, geografias, tópicos, tipos de dispositivo, coortes de usuários).
Aprendizado ativo
Em Aprendizado Ativo, você seleciona itens para rotular que devem ser mais informativos:
- Amostragem por incerteza (uncertainty sampling) (rotular onde o modelo está menos confiante)
- Amostragem por diversidade (diversity sampling) (cobrir diferentes clusters)
- Amostragem focada em erros (rotular fatias de falha conhecidas)
Exemplo de pseudocódigo:
# Select items with highest predictive entropy
import numpy as np
def entropy(probs):
probs = np.clip(probs, 1e-9, 1.0)
return -(probs * np.log(probs)).sum(axis=1)
# probs: N x K predicted class probabilities
idx = np.argsort(entropy(probs))[-100:] # top-100 most uncertain
to_label = pool[idx]
O aprendizado ativo pode reduzir o custo de rotulagem, mas também pode enviesar seu conjunto de dados em direção a casos ambíguos. Muitas equipes mantêm conjuntos separados:
- Um conjunto de “aquisição de treinamento” (amostrado ativamente)
- Um conjunto de “avaliação representativa” (aleatório/estratificado)
Loops de feedback online e viés de seleção
Ao coletar feedback no produto:
- Apenas alguns usuários fornecem feedback (viés de seleção).
- Usuários podem se comportar de forma diferente quando sabem que estão sendo avaliados.
- O modelo influencia quais dados são vistos (loop de feedback).
Mitigações:
- Ocasionalmente amostrar interações para avaliação independentemente do feedback do usuário (“registro silencioso” com consentimento).
- Usar políticas de exploração com cautela (especialmente em domínios de alto risco).
- Manter um protocolo de avaliação estável e monitorar deriva de distribuição.
Como o feedback humano é usado em sistemas modernos de ML
Ajuste fino supervisionado (SFT)
Você coleta demonstrações ou “respostas ideais” e treina o modelo para imitá-las usando objetivos supervisionados padrão. Isso é comum para LLMs de seguimento de instruções (instruction-following) e para modelos específicos de tarefa.
Benefícios:
- Treinamento estável e direto
- Alvos de saída claros
Riscos:
- Demonstrações podem não cobrir casos extremos
- O modelo pode aprender o estilo específico do anotador em vez de valor geral para o usuário
Aprendizado por preferências e alinhamento
Comparações de preferências humanas são amplamente usadas para alinhar modelos generativos:
- Treinar um modelo de recompensa para prever preferência humana
- Otimizar a política/modelo para maximizar a recompensa prevista (ou usar métodos de otimização direta de preferências)
Mesmo que você não faça Aprendizado por Reforço, dados de preferência frequentemente impulsionam a iteração do modelo.
Principais escolhas de design de dados:
- Comparar saídas de diferentes versões do modelo para encontrar melhorias.
- Incluir “negativos difíceis” (respostas plausíveis, mas erradas).
- Balancear critérios: utilidade vs. segurança vs. verbosidade.
Conjuntos de avaliação e gating
Conjuntos de avaliação rotulados por humanos são usados para:
- Decidir se um modelo é seguro para implantar
- Comparar versões do modelo
- Identificar regressões em fatias críticas
Ao contrário de dados de treinamento, dados de avaliação precisam ser:
- Estáveis (versionados)
- Mantidos separados do treinamento
- Documentados com rubricas consistentes
Exemplos práticos
Exemplo 1: Construindo um classificador de toxicidade
Objetivo: Detectar comentários tóxicos com alto recall para assédio severo.
Design de feedback:
- Rótulos: {não tóxico, tóxico, assédio severo}
- Adicionar anotações de spans para destacar a frase tóxica para interpretabilidade e análise de erros.
Passos de qualidade:
- Rotular duplamente 15% dos itens.
- Acompanhar kappa por idioma.
- Adjudicar discordâncias, atualizar rubrica para gírias e xingamentos ressignificados.
Uso:
- Treinar classificador com aprendizado supervisionado.
- Usar spans rotulados para criar fatias de teste direcionadas (“ameaças”, “ataques a identidade”).
Exemplo 2: Dados de preferência par a par para um chatbot de suporte ao cliente
Objetivo: Melhorar a utilidade das respostas mantendo conformidade com políticas.
Tarefa:
- Mostrar a pergunta do usuário e duas respostas candidatas (A/B).
- Perguntar: “Qual resposta é melhor no geral?” além de marcações por critério:
- Segue a política
- Correção
- Completude
- Tom
Por que isso funciona:
- Escolhas par a par são mais rápidas e mais consistentes do que notas 1–5.
- Marcações por critério ajudam a diagnosticar por que A venceu B.
Notas operacionais:
- Randomizar esquerda/direita.
- Ocultar nomes de versões do modelo.
- Adicionar “empate / ambas ruins / informação insuficiente” para reduzir erros forçados.
Uso:
- Treinar modelo de preferências / otimizar respostas.
- Usar marcações por critério para construir testes de regressão direcionados.
Exemplo 3: Feedback no produto para um recurso de sumarização
Objetivo: Detectar quando resumos são enganosos.
Coleta:
- “Este resumo estava correto?” (Sim/Não/Não tenho certeza)
- Opcional: destacar a frase incorreta e fornecer uma correção
Riscos:
- Muitos usuários não vão responder a menos que algo esteja obviamente errado.
- Usuários podem não ler a fonte e podem confiar demais no resumo.
Mitigações:
- Ocasionalmente solicitar uma checagem rápida com fricção mínima.
- Usar um conjunto de avaliação separado rotulado por especialistas para acurácia.
- Adicionar sinais de UX sobre incerteza (relacionado a Confiança, Dependência Excessiva e Calibração).
Ética, segurança e governança
A coleta de feedback humano pode causar danos se for conduzida de forma descuidada.
Viés e representatividade
Pools de anotadores não são neutros. Riscos incluem:
- Distorções demográficas causando rótulos enviesados (por exemplo, dialeto classificado como “tóxico”)
- Diferenças culturais em polidez ou ofensividade
- Baixa cobertura de idiomas ou contextos minoritários
Mitigações:
- Pools de anotadores diversos e rubricas sensíveis a localidade
- Avaliação por fatias entre demografias e idiomas
- Documentar conjuntos de dados (por exemplo, documentação no estilo “datasheets”)
- Incluir opções de “não é possível determinar” para reduzir chutes
Privacidade e consentimento
Se você rotula dados de usuários, você está lidando com informações sensíveis.
- Minimizar a coleta de dados
- Redigir (redact) ou mascarar dados pessoais quando possível
- Impor controles de acesso rigorosos e limites de retenção
- Considerar métodos de preservação de privacidade como Privacidade Diferencial quando aplicável
Bem-estar de anotadores
Moderação de conteúdo e rotulagem de segurança podem expor anotadores a material perturbador. Boas práticas:
- Avisos de conteúdo e opção de recusa
- Rodízio e limites de tempo
- Recursos de apoio à saúde mental
- Ferramentas que desfocam imagens por padrão ou revelam conteúdo sob demanda
Segurança e manipulação adversarial
Canais de feedback podem ser atacados:
- Brigading (avaliações negativas coordenadas)
- Injeção de prompt (prompt injection) embutida em itens mostrados a anotadores
- Envenenamento de dados (data poisoning) via “correções” enviadas por usuários
Mitigações:
- Limites de taxa e sistemas de reputação para feedback de usuários
- Revisão humana para atualizações de alto impacto
- Separar fluxos de feedback “confiáveis” e “não confiáveis”
Boas práticas operacionais (checklist)
Design de dados
- Definir o que “bom” significa como critérios mensuráveis.
- Escolher rótulo vs nota vs preferência de forma intencional.
- Incluir casos extremos e resultados “desconhecido/informação insuficiente”.
- Garantir que os dados de avaliação sejam representativos e mantidos separados.
Processo de anotação
- Treinar anotadores; conduzir sessões de calibração.
- Versionar rubricas e registrar mudanças.
- Rotular duplamente um subconjunto e acompanhar concordância ao longo do tempo.
- Adjudicar discordâncias e retroalimentar insights para atualizações de rubrica.
Ferramentas e governança
- Rastrear proveniência: quem rotulou o quê, quando, sob qual versão de rubrica.
- Armazenamento seguro, controle de acesso e políticas de retenção.
- Monitorar deriva de rótulos e deriva do modelo após implantação.
Integração com o produto
- Tornar o feedback fácil, mas não enganoso.
- Evitar interfaces que incentivem dependência excessiva ou julgamentos enviesados (veja Explicabilidade para Usuários).
- Tratar sinais implícitos como feedback fraco, a menos que sejam validados.
Perspectiva final
A coleta de feedback humano é uma forma disciplinada de transformar julgamento humano em uma entrada de engenharia. Os pipelines mais fortes tratam feedback como um sistema de medição: construtos claramente definidos, amostragem cuidadosa, procedimentos de anotação controlados e monitoramento contínuo de qualidade. Quando bem feita, ela viabiliza não apenas modelos melhores, mas implantação mais segura, avaliação mais confiável e um ciclo mais saudável de interação humano–IA.